”确实可以但它们在处理图像时没有将三维的本质置于其方法的核心。 我完全同意讨论一维与三维表示的根本性区别是非常核心的。此外还有一个稍微哲学化的观点但对我来说同样重要:语言本质上是一种纯生成的信号世界上不存在语言。
你走到大自然中不会看到天上写着文字。无论你输入什么数据语言模型几乎都可以通过足够的泛化将相同的数据吐出来这就是语言生成的特质。 但 世界不同它遵循物理法则拥有自己的结构和材料。
能够从根本上提取这些信息进行表示和生成这是一种完全不同的问题。些有用的想法但从根本上来说这是一个不同的哲学问题。 对所以语言模型是一维的可能是对物理世界的不良表示因为它是人类生成的带有损失。
而另一个生成模型的模态是像素即 图像和视频。如果你看视频可以看到 场景因为摄像机可以平移。那么空间智能与 视频有什么不同呢? 这里有两点值得思考。 一是底层的表示二是用户体验的便利性。
这两者有时会让人混淆。我们感知的是 ——我们的 阿根廷电话号码列表 视网膜是二维的结构但我们的大脑将其视为三维世界的投影。
你可能希望移动物体、移动摄像机原则上你可以用二维的表示和模型来做这些事情但它并不适合解决你提出的问题。
动态三维世界的二维投影可能可以建模但将三维表示放在模型的核心能够更好地适应问题的需求。 我们的目标是将更多的三维表示融入模型的核心从而为用户提供更好的体验。这也与我的“北极星”相关。