像是那两周的训练那六天是在两块

Reddi2 · Post by **Reddi2** » Wed Jan 15, 2025 9:05 am

上运行的如果扩展一下大概可以在一块上运行不到五分钟。这样想的话真的有个很好的论点—— 年在挑战赛上的论文真的是一个非常经典的模型那就是卷积神经网络模型。而实际上这个概念早在年代就已经出现了我还记得作为研究生学习的第一篇论文内容也差不多有六七层的网络结构。和卷积神经网络模型的唯一区别几乎就是 ——使用了两个和海量的数据。所以我本来要说的是大多数人现在都熟悉所谓的“痛苦的教训”（）这个教训说的是如果你开发一个算法只要确保你能利用现有的计算资源因为这些资源会逐渐变得可用。

于是你只需要一个能够不断进步的系统。另一方面似乎还有另一个同样有说服力的观点那就是新的数据源实际上解锁了深度学习。就是一个很好的例子。虽然很多人认为自注意力机制对模型很重要但他们也会说这是利用人工乌拉圭 whatsapp 数据标注数据的一种方式。因为人类为句子结构提供了标注如果你看看模型它实际上是通过互联网让人类使用标签来标记图片。因此这实际上是一个关于数据的故事而不是关于计算的故事。那么答案是两者兼有还是更偏向某一方呢？我认为是两者兼有但你也提到了另一个非常关键的点。我觉得在算法领域中实际上有两个明显不同的时代。时代是监督学习的时代。

在这个时代我们有很多数据但我们不知道如何仅凭数据本身来训练。和其他同时期的数据集的预期是我们会有大量的图像但我们需要人类对每张图像进行标注。而我们训练的所有数据都是由人类标注员逐一查看并标注的。而算法的重大突破在于我们现在知道如何在不依赖人类标注的数据上进行训练。对于一个没有背景的普通人来说似乎如果你在训练人类数据人类实际上已经进行了标注只是这种标注并不是显式的。是的哲学上来说这是一个非常重要的问题但这个问题在语言领域比在图像领域更为真实。是的但我确实认为这是一个重要的区别。确实是由人类标注的。我认为自注意力机制是人类已经理解了事物之间的关系然后你通过这些关系进行学习。