Похоже, вы делаете это неправильно...

Jan 05, 2025 18:24

Попалась на глаза статья на Хабре (вольный перевод из The Wall Street Journal) Почему OpenAI откладывает релиз ChatGPT-5? Все дело в недостатке данных. Несколько важных, на мой взгляд, цитат:

"GPT-5 должен сделать новые научные открытия, а также выполнять рутинные человеческие задачи, такие как бронирование встреч или рейсов. Исследователи надеются, что он будет допускать меньше ошибок, чем современные системы ИИ, или по крайней мере иметь сомнения - что является вызовом для текущих моделей, которые могут производить ошибки с кажущейся уверенностью - галлюцинации."

По-моему, если в качестве будущего (не нынешнего!) достижения заявляется "выполнение рутинных человеческих задач" без явных ошибок, то до освоения нерутинных задач, например, таких, как программирование, еще очень и очень далеко. "Вас всех скоро заменит ИИ. И вообще, он скоро осознает себя и захватит мир", пугали они...

"Для своих предыдущих моделей OpenAI использовала данные, собранные из интернета: новостные статьи, посты в социальных сетях и научные работы.

Чтобы сделать Orion умнее, OpenAI нужно сделать его больше. Это означает, что ему нужно еще больше данных, но их недостаточно."

То есть для обучения модели перестает хватать большей части (ладно, не всех - оцифровано не все) знаний, накопленных человечеством за всю историю. Что-то здесь не так...

"Компания нанимает людей для написания нового программного кода или решения математических задач, чтобы Orion мог учиться на этом. Работники, некоторые из которых являются программистами и математиками, также делятся объяснениями своей работы с Orion."

"Процесс идет очень медленно. GPT-4 была обучена на оценочных 13 триллионах токенов. Тысяче человек, пишущих по 5,000 слов в день, потребовались бы месяцы, чтобы создать миллиард токенов."

Хм. То есть трудозатраты по написанию обучающих материалов явно превосходят (примем, похоже, на порядки) трудозатраты по написанию учебников для людей. По которым люди успешно учатся.

"OpenAI также начала разрабатывать так называемые синтетические данные, или данные, созданные ИИ, чтобы помочь в обучении Orion. Обратная связь, при которой ИИ создает данные для ИИ, часто приводит к сбоям или нелепым ответам, как показали исследования."

Ну да, если обучать новый ИИ на данных, сгенерированным старым ИИ (который, напомню, периодически "галлюцинирует"), то результат может не отличаться правдоподобием. И как вы этом случае будут создаваться "сомнения"?

"Илья Суцкевер, кофаундер новой компании по ИИ «Safe Superintelligence» или SSI, заявил на недавней конференции по ИИ, что эпоха максимальных данных закончилась. «Данные не растут, потому что у нас есть только один интернет, - сказал он аудитории исследователей, экспертов по политике и ученых. Можно даже сказать, что данные - это ископаемое топливо для ИИ». И это топливо начало иссякать."

Ну да, Интернет один, он кончился и второго не предвидится. Более того, прирост действительно новых данных относительно всего имеющегося объема в любом случае мизерный. Цифр у меня нет, но в любом случае процент дублирования данных в Интернете огромен. Сколько статей рассказывают, по сути, то же самое, просто другими словами?

А теперь немного философии. Поскольку речь о больших языковых моделях, поговорим о языке. Язык в узком смысле, т.е. человеческий язык - уникальное свойство разума, у животных его нет. Усвоение языка детьми происходит быстро и при очень ограниченном объеме доступных примеров (настолько ограниченном, что появилось даже понятие "poverty of the stimulus"). Понятно, что объем знаний, который может усвоить один человек, на порядки меньше того, что использует LLM - ее пытаются сделать всезнайкой, энциклопедией по всему, от программирования до медицины, от истории до математики. Но при этом она не гарантирует запоминания фактов (те самые "галлюцинации") и не может самостоятельно дообучиться какой-либо области, несмотря на то, что доступный объем информации, используемой для обучения, приближается ко всем знаниями, накопленным человечеством. А настоящий разум (человеческий, других примеров у нас пока нет) осваивает язык по очень ограниченному числу примеров и далее способен обучаться. В том числе по учебникам, а не на тысячах примеров (которые он все равно не успеет прочитать).

Я отнюдь не противник ИИ в перспективе (в придуманной мной мире The Core ИИ играет очень немаленькую роль), но так вы его не создадите. Никакого сильного ИИ (который AGI) подход LLM явно не даст. Более того, он уже уперся в стену, даже раньше, чем я ожидал. Но хайп пока продолжается, огромные деньги вложены и процесс все больше и больше начинает напоминать пузырь...

ИИ, мысли вслух

Previous post Next post
Up