Кстати, в этой статье есть список ссылок на: longformer, reformer, adaptive attention span, compressive transformer, blockwise transformer, BigBird, linformer..
Спасибо! Интересный обзор "Efficient Transformers". Не встречалось ли вам статей o transformers в моделировании движений, танцев и т.п.? (Много статей о подобном применении GRU(/LSTM)+attention я уже встречал..)
Не помню, чтобы такое мне попадалось. (Но это ничего не значит, конечно, я ведь не пробовал искать на эту тему, и я уже совсем не справляюсь с потоком статей, так что, я вижу небольшую часть того, что происходит.)
:-) Помню только анимированную визуализацию из исследования "BERTology Meets Biology: Interpreting Attention in Protein Language Models", которая создавала в уме зрителя/читателя ассоцияцию с чем-то таким :-) Я так чувствую, что изящность этой анимации и была причиной того, что я это исследование тогда заметил, и до сих пор помню:
Лень мне прорываться на dreamwidth, так что тут, по поводу твоего последнего поста. Идея интересная - я про "псевдо-ДНК". В совершенно отмооженном виде выглядит так. У нас есть последовательность букв, ну пусть будет из 4-буквенного алфавита. Пусть будет, скажем, длиной 10 тысяч. Можно сли сделать какой-то псевдо-случайный мэппинг этих последовательностей в 100-мерный куб? Так, чтобы как-то там этот куб "покрыть"? Дальше: 100-мерный куб - это нейронка на 100 переменных. Задача - какая-нибудь стандартная. А оптимизируем/обучаем - не 100-мерный вектор, а дискретную последовательность букв. Вопрос, собственно, примитивный: какой мэппинг для эксперимента выбрать?
Да, забавно, что они используют небольшие матрицы в качестве, как они выражаются, "псевдо-геномов". Ну да, если матрица, как у них, 8х8, то это уже размерность 64.
***
Ну, вообще говоря, когда делают вложения дискретных объектов в векторные пространства, их, скорее, тренируют, чем делают псевдо-случайными. Они бывают первыми слоями лингвистических нейронок, или отдельно живут, вроде Word2Vec.
Но, на самом деле, есть же полно нейронок, обрабатывающих биологические последовательности, ДНК и тому подобное. И они неизбежно должны делать вложения в векторные пространства тем или иным образом. Надо, наверное, взглянуть, как они это делают...
А мне как раз лень таким образом идти. Может, есть какая-то абстрактная модель вложения? Я тут вот какие вещи умею делать, тоже из серии супер-лени. Мне нужно буквы в нейронку засовывать. Так я генерирую случайные вектора длины 1 в трёхмерном скажем, пространстве, и назначаю каждой букве по такому вектору. Работает. Сначала я старался тренировать этот мэппинг, потом расслабился, и, вроде, хуже не стало.
Я про что: меня очень напрягает "вес" нейронки в посчитанном виде: floats, как понимаешь, очень фигово в текстовый вид укладываются, очень большие файлы получаются, а как посчитаешь, сколько тут толку на байт - так почти невесомо. А тут, вроде как, переход от аналогого сигнала в дискретный...
Comments 60
Кстати, в этой статье есть список ссылок на:
longformer, reformer, adaptive attention span,
compressive transformer, blockwise transformer,
BigBird, linformer..
Reply
Две статьи, которые мне показались в своё время особенно полезны:
обзор "Efficient Transformers: A Survey" https://arxiv.org/abs/2009.06732 (Google Research)
и
"Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention" https://arxiv.org/abs/2006.16236 (Switzerland + U.Washington)
Reply
Не встречалось ли вам статей o transformers в моделировании движений, танцев и т.п.?
(Много статей о подобном применении GRU(/LSTM)+attention я уже встречал..)
Reply
:-) Помню только анимированную визуализацию из исследования "BERTology Meets Biology: Interpreting Attention in Protein Language Models", которая создавала в уме зрителя/читателя ассоцияцию с чем-то таким :-) Я так чувствую, что изящность этой анимации и была причиной того, что я это исследование тогда заметил, и до сих пор помню:
https://twitter.com/RichardSocher/status/1278058096481333253
Reply
Идея интересная - я про "псевдо-ДНК". В совершенно отмооженном виде выглядит так. У нас есть последовательность букв, ну пусть будет из 4-буквенного алфавита. Пусть будет, скажем, длиной 10 тысяч. Можно сли сделать какой-то псевдо-случайный мэппинг этих последовательностей в 100-мерный куб? Так, чтобы как-то там этот куб "покрыть"?
Дальше: 100-мерный куб - это нейронка на 100 переменных. Задача - какая-нибудь стандартная. А оптимизируем/обучаем - не 100-мерный вектор, а дискретную последовательность букв.
Вопрос, собственно, примитивный: какой мэппинг для эксперимента выбрать?
Reply
Да, забавно, что они используют небольшие матрицы в качестве, как они выражаются, "псевдо-геномов". Ну да, если матрица, как у них, 8х8, то это уже размерность 64.
***
Ну, вообще говоря, когда делают вложения дискретных объектов в векторные пространства, их, скорее, тренируют, чем делают псевдо-случайными. Они бывают первыми слоями лингвистических нейронок, или отдельно живут, вроде Word2Vec.
Но, на самом деле, есть же полно нейронок, обрабатывающих биологические последовательности, ДНК и тому подобное. И они неизбежно должны делать вложения в векторные пространства тем или иным образом. Надо, наверное, взглянуть, как они это делают...
Reply
Я тут вот какие вещи умею делать, тоже из серии супер-лени. Мне нужно буквы в нейронку засовывать. Так я генерирую случайные вектора длины 1 в трёхмерном скажем, пространстве, и назначаю каждой букве по такому вектору. Работает.
Сначала я старался тренировать этот мэппинг, потом расслабился, и, вроде, хуже не стало.
Reply
Reply
Leave a comment