Самый большой урок, который можно извлечь из 70 лет исследований в области ИИ, заключается в том, что общие методы с опорой на вычисления оказываются в итоге наиболее эффективными, причем с большим отрывом... В погоне за улучшеними, которые дают краткосрочное преимущество, исследователи стремятся использовать человеческий опыт и знания в данной
(
Read more... )
Comments 47
«Новые подходы и архитектуры» - нет там ничего нового. Качественный скачок на пустом месте: я малому книгу подарил старую «не счесть у робота профессий», это конец 80-х двадцатого века, и для краткого знакомства с вопросами современного айти, без конкретики, все замечательно подходит. Да-да: там и про нейросети есть немного, на пальцах объяснено как оно работает.
Ну а сейчас это просто «зарелизили», и оно «поперло».
Reply
Reply
дальше настоящие 3D-принтеры, принтеры еды и компактные источники энергии, что в совокупности ведет к драматическому ослаблению значения коллективов для выживания.
Напоминаю пример с паровозом и кораблями - раньше, чтобы управлять такими машинами (примем корабль даже парусный за машину), нужен был коллектив в десятки людей. Сегодня - единицы. Затем - 0 (это ведет к единицам в других отраслях).
Что получается? Раньше был мощный слой крестьян. Затем мощный слой рабочих с примерно одинаковыми концепциями труда. Теперь - облако единиц, которые коммуницируют и двигают мир через технологические посредники.
Ослабление значения коллективов для выживания означает рост возможностей для колонизации. Сначала - пустынных районов Земли, вроде плато Путорана или западных районов Китая. Затем океана, затем космоса.
Reply
>>рост возможностей для колонизации. Сначала - пустынных районов Земли
Псковская область, население в начале ХХ века - 1 800 000 человек, нынче - менее шестисот тысяч. Обитаемость, в отличие от Путорана, вопросов не вызывает - территория населялась человеком с каменного века. Приступайте, колонизируйте...
А пока: надо, чтобы наши торгпредства и посольства более активно были включены
в работу по поиску перспективных работников для российского рынка труда
из латиноамериканских, азиатских стран. https://www.business-gazeta.ru/article/592141 , сегодняшний материал
Reply
одобряю. Путорана - фактически Марс, только с воздухом и водой проблем нет. Просто максимизировал пример. После колонизации плато Путорана - колонизация Луны покажется уже не такой далекой, мне мнится )) Мне кажется, что океан все же сложнее будет колонизировать - чертовы перепады давления и экологические защитники не дадут хорошо застроиться.
Reply
Можешь ли пояснить, почему увеличение контекста требует квадратичного роста потребляемой памяти (читал об этом про миллион токенов)? Не напрашивается ли там очевидный какой-то практический трюк, до которого яйцеголовые (уважительно!) уже скорее всего дошли, просто статья не опубликована или текст еще не сформулирован в как следует зубодробительных формулировках?
Ну вот идея с миллионом токенов. Она очень похожа на интуитивные предложения, которые даже комментаторы, далекие от нейронки, писали - "конспекст сути от предыдущего кусочка + следующий кусочек".
У нас есть в ChatGPT возможность хранить неограниченно долго историю параллельных чатов с небольшим промптом. Неужели нет математического способа соединить совокупность кучи параллельных чатов в мегачат с общим гига-контекстом?
Reply
Трансформер всегда берёт на вход последовательность максимальной возможной длины (вот эти 4096 токенов для ChatGPT) и выдаёт такую же длину после прохождения всех слоёв. Если бы он был обычной FFN сетью, то это была бы линейная зависимость количества операций от длины последовательности. С каким-то большим коэффициентом от количества слоёв и размерности модели, но всё равно линейная: фиксированное кол-во операций над каждым элементом. Но у нас трансформер, поэтому кроме FFN ещё есть сложный блок внимания, основная "фишка" архитектуры. И вот этот блок на одном из шагов вычисляет квадратные матрицы n x n, каждый элемент входящей последовательности перемножает с каждым. Для каждого из токенов вычисляет, как на него влияют все остальные токены. Вот в этом месте у нас и вычислительная сложность, и требования к памяти сразу становятся квадратичными от длины окна и это очень быстро становится проблемой.
Предложен уже вагон способов чтобы это обойти. Вопрос же в сложности (как сильно надо менять проверенную архитектуру), прогнозируемом ( ... )
Reply
спасибо, это коммент на целую статью
Reply
Мне понравился вот этот подход к обяснению.
Базовым является матрица из токенов промпта X, точнее векторов представления токенов. Токены вкладываются в пространство фиксированной размерности, но вот длина контекста это другая размерность. Так вот, далее мы переножаем X и ее транспонированную X' чтобы включить механизм взаимосвязи разных токенов. Но это недостаточно ибо нам нужны еще раздать веса, которые собственно и тренируются. И вот там возникает как раз квадратная матрица от длины промпта.
Reply
С другой стороны, алгоритмы для вычислений основаны на человеческих знаниях и опыте.
Можно в данном случае взглянуть на развитие коммерческих программ, связанных с конечными элементами - виртуальные испытания виртуальных устройств. Развитие вычислительной базы крайне важно - можно уже не ломать голову над построением оптимальной сетки, а просто запустить на решение задачи большей размерности. Это дает вполне определенный результат.
Тем не менее, хорошие высокооплачиваемые инженеры остаются по-прежнему востребованы.
Reply
Leave a comment