Глубокое обучение, как становится очевидным, эксплуатирует физику процессов эволюции -- ту же самую, что рулит установлением равновесия в спиновых стёклах и рулит сворачиванием белков в четвертичную структуру.
Ещё в 2001 году на русский перевели с немецкого книжку 1990 года Von Werner Ebeling, Andreas Engel und Rainer Feister "Physik der Vojutionsprozesse", "Физика процессов эволюции", в которой процессы ассоциативной памяти уподоблялись процессам в спиновых стёклах -- вся книжка тут:
http://www.klex.ru/5c1. Но и в этой книжке ссылаются на более ранние первоисточники: "Если мы хотим, исходя из самых общих представлений, провести исследования ассоциативной памяти, то нам необходима какая-то конкретная модель, которая с одной стороны допускала бы подробный математический анализ, а с другой стороны позволяла бы воспроизводить как можно больше известных явлений из области биологии и психологии. Одна из таких моделей была предложена в 1982г. Дж.Дж.Хопфилдом ... Мостик к спиновым стёклам возникает прежде всего в силу мультимодальности функции Гамильтона спинового стекла и чётко выраженному бистабильному характеру нейронов. Нейроны могут находиться в двух различных состояниях -- в активном состоянии и в состоянии покоя, которые могут быть сопоставлены спиновой переменной Изинга" (страничка с этой цитатой есть в сети:
http://www.ngpedia.ru/cgi-bin/getpage.exe?cn=144&uid=0.398179490119219&inte=9).
И действительно, вот работа 1982 года J. J. Hopfield, ``Neural networks and physical systems with emergent collective computational abilities'', Proc. Natl. Acad. Sci. USA 79, 2554 (1982) -- в лекции 2004 года "Spin Glasses and the Hopfield Content Addressable Memory" (
http://ecee.colorado.edu/~ecen4831/hoplecs/hoplec1.html).
Так что LeCun сотоварищи, когда пишут "We study the connection between the highly non-convex loss function of a simple model of the fully-connected feed-forward neural network and the Hamiltonian of the spherical spin-glass model" в
http://arxiv.org/pdf/1412.0233.pdf и говорит там, что связь спиновых стёкол и нейронных сетей прослеживается с 1985 года, промахивается года на три. Впрочем, это уже не важно: интернетов тогда не было, компьютеры были полудохлыми и все эти рассуждения были глубоко умозрительными. Сейчас просто предметная область оказалась неожиданно живой и многообещающей. И общность физики нейронных сетей и прочих механизмов глубогого обучения с рядом физических процессов выглядит крайне практичной.
Найдены и другие примеры похожих процессов. В 1985 году выходит книжка Spin Glass Theory and Beyond (в серии World Scientific Lecture Notes in Physics --
http://www.worldscientific.com/worldscibooks/10.1142/0271), и прямо в аннотации говорится, что paying particular attention to new applications in the study of optimization theory and neural networks. Но кроме того там рассказывается о приложениях теории спиновых стёкол для сворачивания полимеров. В 1997 году выходит уже много работ, где сворачивание белков изучается по математике для спиновых стёкол (по-русски, например,
http://ufn.ru/ufn97/ufn97_2/Russian/r972b.pdf по-английски
http://lfp.qb.fcen.uba.ar/embnet/references/frustra_ref1.pdf).
Чуть более попсово (только не обращайте внимания на историческую информацию, там корни значительно глубже, как можно посмотреть по приведённым мной ссылкам) про это рассказано в паре постов
https://charlesmartin14.wordpress.com/2015/03/25/why-does-deep-learning-work/. А в посте
https://charlesmartin14.wordpress.com/2015/04/01/why-deep-learning-works-ii-the-renormalization-group/ даются ссылки на ещё один раздел физики -- ренормализационная, позволяющая моделировать явления разных масштабов (
https://en.wikipedia.org/wiki/Renormalization_group,
https://ru.wikipedia.org/wiki/Ренормализоационная_группа) -- "В так называемых перенормируемых теориях, система при одном масштабе, как правило, будет выглядеть составленной из самоподобных копий, если смотреть в меньшем масштабе, с другими параметрами, описывающими компоненты системы. Компоненты, или основные переменные могут быть связаны с атомами, элементарными частицами, атомными спинами и т. д. Параметры теории описывают взаимодействие компонентов. Это может быть переменные параметры связи, от которых зависит влияние различных сил или масс. Сами компоненты системы, может оказаться, состоят из таких же компонентов, но меньшего размера".
Почему это важно? Потому как в сворачивании белков есть
https://en.wikipedia.org/wiki/Levinthal%27s_paradox -- если бы там всё было "чисто статистически", то белки бы не сворачивались за время жизни вселенной. Но они сворачиваются крайне быстро, и результат устойчив. То же самое относится к спиновым стёклам, к нейронным сетям: они не ведут себя чисто статистически, там не статистика, там другое -- эволюция, причём на каком-то более-менее однородном материале (на котором возникают разномасштабные явления).
Я тут уже писал много раз, что происходящее сейчас в deep learning подобно квантовой революции в физике сто лет назад, это существенное продвижение в понимании устройства мироздания. Мне кажется, что связь физики спиновых стёкол, сворачивания белков, нейронных сетей и математики эволюции ещё себя проявит. Вопрос "почему так хорошо работают нейронные сетки" становится эквивалентным вопросу "почему так хорошо работает эволюция". И это вопрос о физичности эволюции, понимании её природы, моделировании -- и затем переходу к инженерной постановке вопроса, к использованию моделей для инженерии эволюции. Так что про нейронные сетки (спиновые стёкла, сворачивание белков, физику землетрясений и месторождений) пишем, а эволюцию держим в уме.