China Dataset

Posted: **Sat Feb 01, 2025 4:43 am**

Это может быть не такой уж большой проблемой, если вы спрашиваете Siri, во сколько открывается продуктовый магазин. Это огромная проблема , если вы пишете статью о здоровье , кодируете программное обеспечение, оказываете юридическую поддержку или диагностируете рак.

До сих пор ответом на эту проблему было собрать больше данных и надеяться на лучшее.

«Это грязный секрет глубокого обучения: это швыряние спагетти об стену», — сказал Ари Моркос, исследователь ИИ, работавший в Google и Meta .

Но эта тактика работает только до тех пор, пока есть больше данных.

Поразительно, но компании, занимающиеся искусственным интеллектом, уже захватили почти весь доступный интернет.

В 2022 году исследователи оценили вероятность того, что к 2026 году у исследователей ИИ закончатся данные, составляет 90% .

В основе всего лежит слово «пригодный к исполь база данных telegram казахстана зованию». Вы не можете постоянно скармливать LLM твиты вашего раздражающего соседа с ошибками и ожидать, что он выдаст Шекспира.

Модели необходимо обучать на полных, точных, высококачественных и общедоступных данных .

И это последнее условие действительно вносит сумятицу в работу.

В поисках высококачественных данных все крупные компании, включая Meta, Google и OpenAI, якобы проигнорировали законы о конфиденциальности данных и авторских правах.

Грядет волна судебных тяжб.
На момент публикации еще восемь крупных газет США присоединились к The New York Times, подав иск против OpenAI и Microsoft.

China Dataset

У них уже заканчиваются данные

У них уже заканчиваются данные