9 months since GPT-3 revolution

Feb 28, 2021 03:56

On May 28, 2020 OpenAI published the GPT-3 paper, "Language Models are Few-Shot Learners", https://arxiv.org/abs/2005.14165Read more... )

Leave a comment

Comments 60

am March 6 2021, 00:40:30 UTC
> "efficient transformers", "vision transformers"

Кстати, в этой статье есть список ссылок на:
longformer, reformer, adaptive attention span,
compressive transformer, blockwise transformer,
BigBird, linformer..

Reply

anhinga_anhinga March 6 2021, 02:19:31 UTC
А, это полезно, спасибо! И то, что они по-русски делают, хотя и небольшую версию, это тоже хорошо...

Две статьи, которые мне показались в своё время особенно полезны:

обзор "Efficient Transformers: A Survey" https://arxiv.org/abs/2009.06732 (Google Research)

и

"Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention" https://arxiv.org/abs/2006.16236 (Switzerland + U.Washington)

Reply

am March 6 2021, 02:44:25 UTC
Спасибо! Интересный обзор "Efficient Transformers".
Не встречалось ли вам статей o transformers в моделировании движений, танцев и т.п.?
(Много статей о подобном применении GRU(/LSTM)+attention я уже встречал..)

Reply

anhinga_anhinga March 6 2021, 03:24:21 UTC
Не помню, чтобы такое мне попадалось. (Но это ничего не значит, конечно, я ведь не пробовал искать на эту тему, и я уже совсем не справляюсь с потоком статей, так что, я вижу небольшую часть того, что происходит.)

:-) Помню только анимированную визуализацию из исследования "BERTology Meets Biology: Interpreting Attention in Protein Language Models", которая создавала в уме зрителя/читателя ассоцияцию с чем-то таким :-) Я так чувствую, что изящность этой анимации и была причиной того, что я это исследование тогда заметил, и до сих пор помню:

https://twitter.com/RichardSocher/status/1278058096481333253

Reply


russhatter April 27 2021, 16:37:45 UTC
Лень мне прорываться на dreamwidth, так что тут, по поводу твоего последнего поста.
Идея интересная - я про "псевдо-ДНК". В совершенно отмооженном виде выглядит так. У нас есть последовательность букв, ну пусть будет из 4-буквенного алфавита. Пусть будет, скажем, длиной 10 тысяч. Можно сли сделать какой-то псевдо-случайный мэппинг этих последовательностей в 100-мерный куб? Так, чтобы как-то там этот куб "покрыть"?
Дальше: 100-мерный куб - это нейронка на 100 переменных. Задача - какая-нибудь стандартная. А оптимизируем/обучаем - не 100-мерный вектор, а дискретную последовательность букв.
Вопрос, собственно, примитивный: какой мэппинг для эксперимента выбрать?

Reply

anhinga_anhinga April 27 2021, 16:57:17 UTC
В смысле, по поводу https://dmm.dreamwidth.org/41863.html ("Meta-Learning Bidirectional Update Rules")

Да, забавно, что они используют небольшие матрицы в качестве, как они выражаются, "псевдо-геномов". Ну да, если матрица, как у них, 8х8, то это уже размерность 64.

***

Ну, вообще говоря, когда делают вложения дискретных объектов в векторные пространства, их, скорее, тренируют, чем делают псевдо-случайными. Они бывают первыми слоями лингвистических нейронок, или отдельно живут, вроде Word2Vec.

Но, на самом деле, есть же полно нейронок, обрабатывающих биологические последовательности, ДНК и тому подобное. И они неизбежно должны делать вложения в векторные пространства тем или иным образом. Надо, наверное, взглянуть, как они это делают...

Reply

russhatter April 27 2021, 17:01:42 UTC
А мне как раз лень таким образом идти. Может, есть какая-то абстрактная модель вложения?
Я тут вот какие вещи умею делать, тоже из серии супер-лени. Мне нужно буквы в нейронку засовывать. Так я генерирую случайные вектора длины 1 в трёхмерном скажем, пространстве, и назначаю каждой букве по такому вектору. Работает.
Сначала я старался тренировать этот мэппинг, потом расслабился, и, вроде, хуже не стало.

Reply

russhatter April 27 2021, 17:07:43 UTC
Я про что: меня очень напрягает "вес" нейронки в посчитанном виде: floats, как понимаешь, очень фигово в текстовый вид укладываются, очень большие файлы получаются, а как посчитаешь, сколько тут толку на байт - так почти невесомо. А тут, вроде как, переход от аналогого сигнала в дискретный...

Reply


Leave a comment

Up