Подозреваю, дело не столько в количестве, сколько в качестве - веб на 90% мусорная куча из пустого трёпа, слухов и сплетен, не считая прямой дезинформации. На этой основе построить какую-то вменяемую модель вряд ли возможно - в ней концы с концами сходится не будут.
Думаю, информацию для обучения все же предварительно фильтруют и не пропускают откровенный хлам. Модель обучается на отобранных данных, а не в режиме бота, который ползает по всем веб-страницам, которые найдет. Но качество информации, конечно, тоже играет роль - уникальной и новой совсем мало. А насчет концов с концами... Для LLM есть только текстовые последовательности, и нет понятий и фактов, которые ими выражаются. Поэтому согласованности утверждений в ней нет, отсюда и "галлюцинации".
Ещё бы у неё были понятия. Оно же как слепоглухонемой ребёнок, которому одномоментно в мозг закачали сразу всё. От "баю-бай" до порноснаффа. Органов чувств нет, механики социализации нет, механики "стимул - действие" нет. Какой может быть разум при таких вводных?
Некоторые, похоже, надеялись, что, если закачать много-много данных, разум самозародится. Данных на порядки больше, чем в мозгу у реально существующего разума, а результата нет. You are doing it wrong. Кстати, да, есть подозрение, что без взаимодействия с материальным миром и без социума он и не появится. Необходимые условия.
Думаю, вряд ли. Не из-за законодательных ограничений, на них таким конторам наплевать, а потому что не поможет. Аудиоканал гораздо менее емок, даже если взять все телефонные разговоры за последние годы, это почти ничего не добавит к тому объему, который есть в сети. В чатах (да и в разговорах) преобладает малоценная информация, многократно повторяющаяся. Люди болтают примерно об одном. К тому же в чатах, в отличие от статей, куда больше проблем с орфографией и грамматикой. ИИ, обученный на их основе, мало того что продолжит "галлюцинировать", он еще и безграмотным будет...
Но лично коммуникация, как правило, гораздо более точная. Люди хотят, чтобы их поняли. В отличие от публичных записей, где кто во что горазд + миллион ботов. В чатах верифицированные люди
Comments 24
Подозреваю, дело не столько в количестве, сколько в качестве - веб на 90% мусорная куча из пустого трёпа, слухов и сплетен, не считая прямой дезинформации. На этой основе построить какую-то вменяемую модель вряд ли возможно - в ней концы с концами сходится не будут.
Reply
Reply
Ещё бы у неё были понятия. Оно же как слепоглухонемой ребёнок, которому одномоментно в мозг закачали сразу всё. От "баю-бай" до порноснаффа. Органов чувств нет, механики социализации нет, механики "стимул - действие" нет. Какой может быть разум при таких вводных?
Reply
Reply
Возможно, дальше для обучения будут потреблять записи телефонных разговоров или приватные чаты
Reply
Reply
Но лично коммуникация, как правило, гораздо более точная. Люди хотят, чтобы их поняли. В отличие от публичных записей, где кто во что горазд + миллион ботов. В чатах верифицированные люди
Reply
Reply
Reply
Leave a comment