Comments | d0ctor_z: Похоже, вы делаете это неправильно...

d0ctor_z

Похоже, вы делаете это неправильно...

Jan 05, 2025 18:24

Попалась на глаза статья на Хабре (вольный перевод из The Wall Street Journal) Почему OpenAI откладывает релиз ChatGPT-5? Все дело в недостатке данных. Несколько важных, на мой взгляд, цитат:

( Read more... )

ИИ, мысли вслух

Comments 24

alex_dragon January 5 2025, 15:46:37 UTC

Подозреваю, дело не столько в количестве, сколько в качестве - веб на 90% мусорная куча из пустого трёпа, слухов и сплетен, не считая прямой дезинформации. На этой основе построить какую-то вменяемую модель вряд ли возможно - в ней концы с концами сходится не будут.

d0ctor_z January 5 2025, 16:29:41 UTC

Думаю, информацию для обучения все же предварительно фильтруют и не пропускают откровенный хлам. Модель обучается на отобранных данных, а не в режиме бота, который ползает по всем веб-страницам, которые найдет. Но качество информации, конечно, тоже играет роль - уникальной и новой совсем мало. А насчет концов с концами... Для LLM есть только текстовые последовательности, и нет понятий и фактов, которые ими выражаются. Поэтому согласованности утверждений в ней нет, отсюда и "галлюцинации".

rbs_vader January 6 2025, 11:42:03 UTC

Ещё бы у неё были понятия. Оно же как слепоглухонемой ребёнок, которому одномоментно в мозг закачали сразу всё. От "баю-бай" до порноснаффа. Органов чувств нет, механики социализации нет, механики "стимул - действие" нет. Какой может быть разум при таких вводных?

d0ctor_z January 6 2025, 13:10:10 UTC

Некоторые, похоже, надеялись, что, если закачать много-много данных, разум самозародится. Данных на порядки больше, чем в мозгу у реально существующего разума, а результата нет. You are doing it wrong. Кстати, да, есть подозрение, что без взаимодействия с материальным миром и без социума он и не появится. Необходимые условия.

Thread 18

botyaslonim January 5 2025, 19:59:16 UTC

Возможно, дальше для обучения будут потреблять записи телефонных разговоров или приватные чаты

d0ctor_z January 6 2025, 07:29:34 UTC

Думаю, вряд ли. Не из-за законодательных ограничений, на них таким конторам наплевать, а потому что не поможет. Аудиоканал гораздо менее емок, даже если взять все телефонные разговоры за последние годы, это почти ничего не добавит к тому объему, который есть в сети. В чатах (да и в разговорах) преобладает малоценная информация, многократно повторяющаяся. Люди болтают примерно об одном. К тому же в чатах, в отличие от статей, куда больше проблем с орфографией и грамматикой. ИИ, обученный на их основе, мало того что продолжит "галлюцинировать", он еще и безграмотным будет...

botyaslonim January 6 2025, 13:26:30 UTC

Но лично коммуникация, как правило, гораздо более точная. Люди хотят, чтобы их поняли. В отличие от публичных записей, где кто во что горазд + миллион ботов. В чатах верифицированные люди

d0ctor_z January 7 2025, 19:29:05 UTC

Да, но в личном общении большую роль играет общий контекст, знакомый собеседникам. А ИИ про него может не знать...

Thread 5

igorpet January 5 2025, 20:37:50 UTC

Спасибо! Приятно, что я не один так думаю.