Comments | snormer: Shut up and calculate!

snormer

Shut up and calculate!

May 01, 2023 01:44

Самый большой урок, который можно извлечь из 70 лет исследований в области ИИ, заключается в том, что общие методы с опорой на вычисления оказываются в итоге наиболее эффективными, причем с большим отрывом... В погоне за улучшеними, которые дают краткосрочное преимущество, исследователи стремятся использовать человеческий опыт и знания в данной ( Read more... )

Нейронки, Мысли вслух

Comments 47

lipkalapka May 1 2023, 05:30:19 UTC

«Новые подходы и архитектуры» - нет там ничего нового. Качественный скачок на пустом месте: я малому книгу подарил старую «не счесть у робота профессий», это конец 80-х двадцатого века, и для краткого знакомства с вопросами современного айти, без конкретики, все замечательно подходит. Да-да: там и про нейросети есть немного, на пальцах объяснено как оно работает.

Ну а сейчас это просто «зарелизили», и оно «поперло».

avb May 1 2023, 06:58:47 UTC

Повторяется то, что было раньше с энергией. Покуда энергии в распоряжении человечества было мало, многие вещи стоили очень дорого и практического значения не имели. Классический пример - алюминий, который некоторое время стоил дороже золота и платины. Вся современная тяжёлая химическая промышленность - пластмассы, сплавы, керамика всякая, удобрения и т.д. - это энергия ( ... )

kvisaz May 1 2023, 08:13:35 UTC

дальше настоящие 3D-принтеры, принтеры еды и компактные источники энергии, что в совокупности ведет к драматическому ослаблению значения коллективов для выживания.

Напоминаю пример с паровозом и кораблями - раньше, чтобы управлять такими машинами (примем корабль даже парусный за машину), нужен был коллектив в десятки людей. Сегодня - единицы. Затем - 0 (это ведет к единицам в других отраслях).

Что получается? Раньше был мощный слой крестьян. Затем мощный слой рабочих с примерно одинаковыми концепциями труда. Теперь - облако единиц, которые коммуницируют и двигают мир через технологические посредники.

Ослабление значения коллективов для выживания означает рост возможностей для колонизации. Сначала - пустынных районов Земли, вроде плато Путорана или западных районов Китая. Затем океана, затем космоса.

abolin May 1 2023, 13:38:20 UTC

>>рост возможностей для колонизации. Сначала - пустынных районов Земли

Псковская область, население в начале ХХ века - 1 800 000 человек, нынче - менее шестисот тысяч. Обитаемость, в отличие от Путорана, вопросов не вызывает - территория населялась человеком с каменного века. Приступайте, колонизируйте...

А пока: надо, чтобы наши торгпредства и посольства более активно были включены
в работу по поиску перспективных работников для российского рынка труда
из латиноамериканских, азиатских стран. https://www.business-gazeta.ru/article/592141 , сегодняшний материал

kvisaz May 1 2023, 14:00:24 UTC

одобряю. Путорана - фактически Марс, только с воздухом и водой проблем нет. Просто максимизировал пример. После колонизации плато Путорана - колонизация Луны покажется уже не такой далекой, мне мнится )) Мне кажется, что океан все же сложнее будет колонизировать - чертовы перепады давления и экологические защитники не дадут хорошо застроиться.

Thread 41

kvisaz May 1 2023, 08:09:28 UTC

Можешь ли пояснить, почему увеличение контекста требует квадратичного роста потребляемой памяти (читал об этом про миллион токенов)? Не напрашивается ли там очевидный какой-то практический трюк, до которого яйцеголовые (уважительно!) уже скорее всего дошли, просто статья не опубликована или текст еще не сформулирован в как следует зубодробительных формулировках?

Ну вот идея с миллионом токенов. Она очень похожа на интуитивные предложения, которые даже комментаторы, далекие от нейронки, писали - "конспекст сути от предыдущего кусочка + следующий кусочек".

У нас есть в ChatGPT возможность хранить неограниченно долго историю параллельных чатов с небольшим промптом. Неужели нет математического способа соединить совокупность кучи параллельных чатов в мегачат с общим гига-контекстом?

snormer May 1 2023, 12:16:26 UTC

Трансформер всегда берёт на вход последовательность максимальной возможной длины (вот эти 4096 токенов для ChatGPT) и выдаёт такую же длину после прохождения всех слоёв. Если бы он был обычной FFN сетью, то это была бы линейная зависимость количества операций от длины последовательности. С каким-то большим коэффициентом от количества слоёв и размерности модели, но всё равно линейная: фиксированное кол-во операций над каждым элементом. Но у нас трансформер, поэтому кроме FFN ещё есть сложный блок внимания, основная "фишка" архитектуры. И вот этот блок на одном из шагов вычисляет квадратные матрицы n x n, каждый элемент входящей последовательности перемножает с каждым. Для каждого из токенов вычисляет, как на него влияют все остальные токены. Вот в этом месте у нас и вычислительная сложность, и требования к памяти сразу становятся квадратичными от длины окна и это очень быстро становится проблемой.

Предложен уже вагон способов чтобы это обойти. Вопрос же в сложности (как сильно надо менять проверенную архитектуру), прогнозируемом ( ... )

kvisaz May 1 2023, 13:25:29 UTC

спасибо, это коммент на целую статью

akor168 May 1 2023, 15:22:31 UTC

https://twitter.com/hippopedoid/status/1641432291149848576

Мне понравился вот этот подход к обяснению.

Базовым является матрица из токенов промпта X, точнее векторов представления токенов. Токены вкладываются в пространство фиксированной размерности, но вот длина контекста это другая размерность. Так вот, далее мы переножаем X и ее транспонированную X' чтобы включить механизм взаимосвязи разных токенов. Но это недостаточно ибо нам нужны еще раздать веса, которые собственно и тренируются. И вот там возникает как раз квадратная матрица от длины промпта.

evgeniirudnyi May 1 2023, 08:44:48 UTC

С другой стороны, алгоритмы для вычислений основаны на человеческих знаниях и опыте.

Можно в данном случае взглянуть на развитие коммерческих программ, связанных с конечными элементами - виртуальные испытания виртуальных устройств. Развитие вычислительной базы крайне важно - можно уже не ломать голову над построением оптимальной сетки, а просто запустить на решение задачи большей размерности. Это дает вполне определенный результат.

Тем не менее, хорошие высокооплачиваемые инженеры остаются по-прежнему востребованы.