Сегодняшнее машинное обучение напоминает мне интернет где-то так в 1998 году, когда появлялись первые русскоязычные блоги (web log -- дневники). Они были посвящены главным образом обсуждению новеньких восхититетльных вебсайтов (потом их назовут веб-проектами -- но тогда сленга по обзыванию чего ни попадя "проектами" ещё не было). По машинному обучению множества блогов ещё нет (хотя есть "недельные обзоры", типа
https://www.getrevue.co/profile/wildml/issues/the-wild-week-in-ai-31-white-house-report-on-ai-differentiable-neural-computers-how-to-use-t-sne-33021). Потом все эти "блоги о вебе" как-то кончились, ибо появление новых веб-проектов превысило любые разумные границы для осмысленного мониторинга. Вот deep learning, машинное обучение и (пока ещё слабый) искусственный интеллект сейчас на грани такого увеличения числа проектов. Конечно, не так много людей учат нейронные сетки, как на рубеже столетий людей создавали веб-сайты, но уже в разы и разы больше, чем буквально год назад.
Из типичных историй последних дней:
-- распознавание разговорной речи с точностью как у человека, Achieving Human Parity in Conversational Speech Recognition,
https://arxiv.org/abs/1610.05256 -- "We have measured the human error rate on NIST’s 2000 conversational telephone speech recognition task. We find that there is a great deal of variability between the Switchboard and CallHome subsets, with 5.9% and 11.3% error rates respectively. For the first time, we report automatic recognition performance on par with human performance on this task". Мы обсуждали прогресс в распознавании речи буквально месяц назад в дискуссии к
http://ailev.livejournal.com/1296272.html, и
buriy был очень, очень скептичен. А я не был скептичен. Вот тут подробности:
http://blogs.microsoft.com/next/2016/10/18/historic-achievement-microsoft-researchers-reach-human-parity-conversational-speech-recognition/. Собственно, подробность проста: “Even five years ago, I wouldn’t have thought we could have achieved this. I just wouldn’t have thought it would be possible,” said Harry Shum, the executive vice president who heads the Microsoft Artificial Intelligence and Research group. И, конечно, для чего это всё: “This will make Cortana more powerful, making a truly intelligent assistant possible,” Shum said. Конечно, до полного понимания говоримого людьми компьютерам, как до Луны, тем не менее.
-- выход на сравнимость компьютера с музыкантами-исполнителями: Maximum entropy models for generation of expressive music,
https://arxiv.org/abs/1610.03606. Это мой любимый François Pachet сотоварищи. In this paper, we show how Maximum Entropy (MaxEnt) models can be used to generate musical expression in order to mimic a human performance. As a training corpus, we had a professional pianist play about 150 melodies of jazz, pop, and latin jazz. ... Additionally, we set up a listening test whose results reveal that ... in some cases [а именно, в жанре swing], MaxEnt melodies are almost as popular as the human performed ones. C другой стороны, до реального исполнительского мастерства во всех жанрах компьютерам пока тоже до людей, как до Луны, но помним, что на Луне уже гуляло 12 человек, а на орбите вокруг Луны летало 24 человека. Это "до Луны" может оказаться неожиданно быстро и массово.
-- перевод с четырёх разных языков делает одна сетка, причём с качеством лучше, чем при попарном переводе: Fully Character-Level Neural Machine Translation without Explicit Segmentation
https://arxiv.org/abs/1610.03017 -- то, что там перевод делается с быстрой(!) побуквенной моделью языка добавляет интриги. И это при том, что буквально пару недель назад все обсуждали выход предыдущих "научных достижений" (читай: требующих больших вычислительных ресурсов) в машинном переводе на сервера Гугля,
https://slator.com/academia/researchers-report-significant-progress-in-real-time-machine-translation/, статья вышла 3 октября 2016:
https://arxiv.org/abs/1610.00388 -- для некоторых пар языков (английский-испанский) ошибки трансляции по сравнению с предыдущей версией на серверах Гугля упали на 60%. Это всё работы с участием Kyunghyung Cho, и я уже выучил как писать его имя-фамилию, не подглядывая в оригинал. Но вот фирма SYSTRAN тоже начала участвовать в гонке: и там говорят, что на паре English-Korean в какой-то предметной области их перевод уже лучше человеческого (пункт 6.2, при этом оценку делала независимая фирма):
https://arxiv.org/abs/1610.05540 Конечно, Святой Грааль тут (и меня он тоже крайне интересует) -- это связь символического и коннективистского, формального и интуитивного. Поэтому до сих пор активно обсуждается deep symbolic reinforcement learning,
https://blog.acolyer.org/2016/10/12/towards-deep-symbolic-reinforcement-learning/, несмотря на то, что оригинальная статья вышла уже месяц как --
https://arxiv.org/abs/1609.05518. Из этой же серии работа с памятью -- differentiable neural computer
https://deepmind.com/blog/differentiable-neural-computers/ (и помним про MemNN
http://blog.themusio.com/2016/03/09/memory-neural-networks-memnn/, которая хоть и полугодовой давности, но тоже неплохие результаты показала, она в ту же точку бьёт).
Нового материала уже столько, что обзоры читаются как приключенческие романы. Вот, например, история свёрточных сетей -- от начала времён до наших дней, поданная как борьба за глубину:
https://habrahabr.ru/company/mailru/blog/311706/. Сюда нужно добавить последний шаг (Xception), сделанный десяток дней назад,
https://arxiv.org/abs/1610.02357. И ещё за последние полгода 2016 были альтернативы -- deep networks with stochastic depth
http://arxiv.org/abs/1603.09382, FractalNet
http://arxiv.org/abs/1605.07648 и dense network
https://arxiv.org/abs/1608.06993). Вот тут это всё с примерами из TensorFlow:
https://chatbotslife.com/resnets-highwaynets-and-densenets-oh-my-9bb15918ee32#.xnrthbqup Из обзоров ещё можно выделить перечисление объяснительных (rule extraction) алгоритмов для глубоких нейронных сетей --
https://arxiv.org/abs/1610.05267, это работа из МИСиС (Московский институт стали и сплавов). Ширится, растёт движение!
Ещё мне очень нравится работа по сближению байесовских методов и глубокого обучения, которую ведёт Yarin Gal. Он таки опубликовал PhD диссертацию --
http://mlg.eng.cam.ac.uk/yarin/blog_2248.html (это не первый случай, когда сначала учёный становится знаменитым и известным, и только потом "защищается" уже не пойми от кого).
Разъяснение особенностей t-SNE преобразования для уменьшения многомерности -- это вообще хит последней недели:
http://distill.pub/2016/misread-tsne/.