Почитал обсуждение
«механистической интерпретируемости» как подхода, применительно к языковым трансформерам. Спасибо
Евгению за ссылку.
Я о таком подходе впервые слышу. Точнее, впервые вижу, чтобы его так называли. Если я правильно понял (очень много воды), люди натурально «
отрывают таракану ноги» и на основании этого пытаются делать выводы о его органах слуха. Каких-то теорий нет, просто мучаем маленькую модель: удаляем слои, обнуляем блоки, морозим паттерны активации. И смотрим, как при этом меняется эффективность. Если повредили структуру и сеть перестала бегать - ну, наверное это были конечности...
Интересно, конечно, но как я вижу: подход-то не работает. Единственный заметный результат, с которым парень носится, вот эти «Induction heads», он нашёл просто медитируя над очень-очень упрощённым трансформером без MLP слоя вообще. Своим «подходом» он только
доказывал, что они в нормальных моделях тоже есть и работают подобным же образом. Эмпирически. И я не уверен, что убедительно доказал.
- «Мы хотим найти и выделить в нейросети функциональные цепи». Очень самонадеянно. Нашли? Нет, конечно. Просто взяли блок, который изначально структурно обособлен и попытались определить его функцию.
- Что-то смогли нового сказать о функционировании трансформеров на «низком уровне»? Не уверен, хотя может у специалистов другое мнение. Кмк все эти «виртуальные веса» и «коммуникация между слоями» не добавляют ничего к уже известному и так.
- Добавили интерпретируемости большим моделям? Смешно. Они в маленькой «карманной» кое-как разобраться могут только с механизмом внимания, про который изначально было известно, что он поддаётся анализу.
- Как насчёт остальной сети, за пределами механизма внимания? Ой, «мы там практически ничего не понимаем», «мы ненавидим перцептроны, поэтому делаем вид, что тут их не существует». Ну, по крайней мере честно.
- Что ещё в активе? Изучение динамики приспособленности сети в процессе обучения, все эти «фазовые переходы». Вот это интересно, оттуда действительно что-то можно вытащить. Только это как раз то, о чём я писал: берём метрику, анализируем поведение сети в разных условиях (с «оторванными ногами» в том числе), ищем закономерности. Не знаем, какие: что-то да вылезет. Нейросетевой бихевиоризм.
Остаюсь при своём: никто сейчас не понимает, почему работает ChatGPT. Есть базовое видение (у специалистов) механизма работы маленьких «трансформеров». Т.е. вот этого основного уровня: правильного предсказания следующего слова в последовательности. Прочитанный материал добавляет небольшие штрихи к этому уровню, и только. Как и откуда в больших моделях появляется экстраполяция, генерализация и сложное поведение (chain of reasoning, использование инструкций и подсказок) непонятно сейчас и вряд ли будет понятно в ближайшее время.