Нейронные сети глубокие потому, что мир лучше постигается на многих уровнях абстрактности. Но там не только уровни абстрактности играют значение, но и разные абстрактности -- я бы назвал их клочками абстрактности (можно думать об "онтиках", онтологических клочках, моделирующих какой-то кусочек мира ad hoc, но не подвязанных в какую-то более общую модель мира, upper ontology. В онтологическом мире это ещё называют "микротеории", вслед за CYC). Все эти upper ontology, middle ontology и т.д., "пирамида знаний" в ISO 15926, формальный анализ понятий (FCA, formal concept analisys --
https://en.wikipedia.org/wiki/Formal_concept_analysis) это как раз про это. Другое дело, что в нейронных сетях все эти "онтики" и "пирамидки знаний" появляются не-пойми-где и соответствуют человечьим понятиям не-пойми-как (хотя в FCA тоже результатом регулярно являются безымянные концепты, которые означают что-то важное -- и которые для их обсуждения нужно потом именовать).
Когда появились ультраглубокие сети (residual networks), которые реализовали идею ультраабстрактности, то выяснилось, что они тоже внутри клочковаты -- по факту представляют собой какие-то ансамблевые структуры, работающие внутри глубокой сетки.
Вот только несколько ссылок, показывающих тренд на разборку в этом направлении:
-- обзор residual neural networks:
https://blog.init.ai/residual-neural-networks-are-an-exciting-area-of-deep-learning-research-acf14f4912e9#.k2bkvbvoc-- Residual Networks are Exponential Ensembles of Relatively Shallow Networks (обнаружение "нейроонтик", островков-клочков абстракции)
https://arxiv.org/abs/1605.06431-- Wide Residual Networks (успешная попытка уменьшить число уровней абстракции-слоёв сети за счёт более богатых представлений на каждом уровне -- т.е. сделать сеть более широкой, чем глубокой. Это довольно контринтуитивно, ибо выразительные широкие сети обычно проблемны в части трудоёмкости вычислений и это компенсируют как раз увеличением глубины. Но оказалось, что такой ход не универсален):
http://arxiv.org/abs/1605.07146-- FractalNet: Ultra-Deep Neural Networks without Residuals (идея регуляризации архитектуры сверхглубоких сетей на основе самопохожести фрагментов этой архитектуры -- если продолжить эту аналогию с онтологическими разработками, то это шаг к фрактальным foundational ontology):
http://arxiv.org/abs/1605.07648 Если вернуться к мокрым нейронным сеткам, то можно вспомнить замечание про ограниченность число уровней этой сетки в неокортексе, зрительной коре и далее по всему списку. Это означает, что мощность представления мира в мозгу ограничена: ум человека оказывается ограничен его физической конструкцией. Построение сухих более глубоких по сравнению с мокрыми сеток -- это один из путей снятия барьеров в моделировании сложного мира, снятия барьеров с восприятия и мышления. Искусственные нейронные сети могут представлять мир на бОльших уровнях абстракции, работать с бОльшим количеством неименованных сущностей (т.е. иметь бОльшую интуицию), справляться с бОльшим количеством альтернативных представлений мира (большим количеством онтик).
Это рабочее объяснение того, что искусственные нейронные сети начинают получать сверхчеловеческие результаты уже сейчас. Напомню слова Сергея Шегурина: "Практика показывает, что современные нейросетки на любой конкретной метрике достигают лучшего, чем люди, результата, то есть мы просто не совсем правильно формулируем им задачку, а решают-то они её превосходно" (
http://ailev.livejournal.com/1237324.html).