У них уже заканчиваются данные
Posted: Sat Feb 01, 2025 4:43 am
Это может быть не такой уж большой проблемой, если вы спрашиваете Siri, во сколько открывается продуктовый магазин. Это огромная проблема , если вы пишете статью о здоровье , кодируете программное обеспечение, оказываете юридическую поддержку или диагностируете рак.
До сих пор ответом на эту проблему было собрать больше данных и надеяться на лучшее.
«Это грязный секрет глубокого обучения: это швыряние спагетти об стену», — сказал Ари Моркос, исследователь ИИ, работавший в Google и Meta .
Но эта тактика работает только до тех пор, пока есть больше данных.
Поразительно, но компании, занимающиеся искусственным интеллектом, уже захватили почти весь доступный интернет.
В 2022 году исследователи оценили вероятность того, что к 2026 году у исследователей ИИ закончатся данные, составляет 90% .
В основе всего лежит слово «пригодный к исполь база данных telegram казахстана зованию». Вы не можете постоянно скармливать LLM твиты вашего раздражающего соседа с ошибками и ожидать, что он выдаст Шекспира.
Модели необходимо обучать на полных, точных, высококачественных и общедоступных данных .
И это последнее условие действительно вносит сумятицу в работу.
В поисках высококачественных данных все крупные компании, включая Meta, Google и OpenAI, якобы проигнорировали законы о конфиденциальности данных и авторских правах.
Грядет волна судебных тяжб.
На момент публикации еще восемь крупных газет США присоединились к The New York Times, подав иск против OpenAI и Microsoft.
До сих пор ответом на эту проблему было собрать больше данных и надеяться на лучшее.
«Это грязный секрет глубокого обучения: это швыряние спагетти об стену», — сказал Ари Моркос, исследователь ИИ, работавший в Google и Meta .
Но эта тактика работает только до тех пор, пока есть больше данных.
Поразительно, но компании, занимающиеся искусственным интеллектом, уже захватили почти весь доступный интернет.
В 2022 году исследователи оценили вероятность того, что к 2026 году у исследователей ИИ закончатся данные, составляет 90% .
В основе всего лежит слово «пригодный к исполь база данных telegram казахстана зованию». Вы не можете постоянно скармливать LLM твиты вашего раздражающего соседа с ошибками и ожидать, что он выдаст Шекспира.
Модели необходимо обучать на полных, точных, высококачественных и общедоступных данных .
И это последнее условие действительно вносит сумятицу в работу.
В поисках высококачественных данных все крупные компании, включая Meta, Google и OpenAI, якобы проигнорировали законы о конфиденциальности данных и авторских правах.
Грядет волна судебных тяжб.
На момент публикации еще восемь крупных газет США присоединились к The New York Times, подав иск против OpenAI и Microsoft.