从算法的角度来看这为我们处理数据和获得不同

Reddi2 · Post by **Reddi2** » Wed Jan 15, 2025 9:05 am

类型的输出提供了新的机会帮助我们解决一些截然不同的问题。即使从一个粗略的层面来看你可能会说：“多模态也能看图像。”确实可以但它们在处理图像时没有将三维的本质置于其方法的核心。我完全同意讨论一维与三维表示的根本性区别是非常核心的。此外还有一个稍微哲学化的观点但对我来说同样重要：语言本质上是一种纯生成的信号世界上不存在语言。你走到大自然中不会看到天上写着文字。无论你输入什么数据语言模型几乎都可以通过足够的泛化将相同的数据吐出来这就是语言生成的特质。但世界不同它遵循物理法则拥有自己的结构和材料。

能够从根本上提取这些信息进行表示和生成这是一种完全不同的问题。尽管我们会借鉴语言模型中的一些有用的想法但从根本上来说这是一个不同的哲学问题。对所以语言模型是一维的可能是对物理世界的不良表示因为它是人类阿塞拜疆 whatsapp 数据生成的带有损失。而另一个生成模型的模态是像素即图像和视频。如果你看视频可以看到场景因为摄像机可以平移。那么空间智能与视频有什么不同呢？这里有两点值得思考。一是底层的表示二是用户体验的便利性。这两者有时会让人混淆。我们感知的是 ——我们的视网膜是二维的结构但我们的大脑将其视为三维世界的投影。

你可能希望移动物体、移动摄像机原则上你可以用二维的表示和模型来做这些事情但它并不适合解决你提出的问题。动态三维世界的二维投影可能可以建模但将三维表示放在模型的核心能够更好地适应问题的需求。我们的目标是将更多的三维表示融入模型的核心从而为用户提供更好的体验。这也与我的“北极星”相关。为什么我们强调“空间智能”而不是“平面像素智能”？因为智能的发展轨迹如果你回顾进化史它的最终目的是让动物和人类能够在世界中自由移动、互动进而创造文明甚至是做一片三明治。因此将这种的本质转化为技术是释放无数潜在应用的关键即便有些看起来只是表面上的进步。