Вот ещё одно исследование по культурно-обусловленной кривизне в картине мира, выучиваемой из больших объёмов текста -- Semantics derived automatically from language corpora necessarily contain human biases,
http://arxiv.org/abs/1608.07187. В естественном языке присутствует довольно много остатков древних вариантов онтологии, в текстах они часто встречаются, и из-за этого выученное семантическое пространство оказывается кривоватым. Я в
http://ailev.livejournal.com/1281819.html цитировал из этой линии работ Quantifying and Reducing Stereotypes in Word Embeddings
https://arxiv.org/abs/1606.06121 и Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings,
http://arxiv.org/abs/1607.06520.
Если приглядеться, то в этой линии исследований по выявлению и устранению культурно-обусловленных biases можно выделить следующие проблемы:
1. Разница между семантикой и онтологией (семантика -- это про язык, "как говорят". Онтология -- это про мир, "что есть в мире". Если обсуждаются biases, то это сдвиги того "как говорят" по отношению к тому, "что есть в мире"). Тем самым в данной линии работ выходят на различия представлений лингвистических (семантика, про "понятия", "значения") и онтологических (непротиворечивая структура мира, данная в рамках непротиворечивого описания -- обратите внимание на разницу мира и описания!). Многие нам известные лингвисты приходили к выводу, что чисто лингвистических представлений для понимания языка (NLU, natural language understanding) недостаточно, и нужно как-то обращаться к онтологии. Но как именно? Ведь нет более мёртвой вещи, чем жёстко определённая раз и навсегда картина мира -- метафизику ведь не зря критикуют, а онтология это её часть. И без онтологических рассуждений обойтись чисто лингвистическими рассмотрениями всё чаще и чаще не удаётся. Вот, например, очередные попытки скрестить ежа с ужом -- предложение онтотерминологии:
http://arxiv.org/abs/1609.05170.
2. Но если мы и хотим выучить из каких-то текстов картину мира, онтологию, а хоть и в виде "семантического пространства" (разные варианты предварительно выучиваемых embeddngs, и не забываем критику Nando de Freitas в
http://ailev.livejournal.com/1240509.html -- это именно про "значения", а ведь есть ещё смысл! выучивание значений интересно только как база для определения смысла!), то все проблемы онтологов будут нашими, даже если мы-лингвисты о них не знали. Например, ontology revision (вы можете прихватить какой-то один факт, который приведёт к необходимости переструктурирования всей вашей онтологии). Или одновременное выучивание нескольких онтологий, "исторических" (скажем, "земля плоская") и "современных" ("земля круглая", "земля геоидная"). Или винегрет из онтологий нескольких близких и далёких научных школ (в психологии, например, до сих пор нет хоть какого-то единства по поводу тамошней онтологии -- сравните, например, с физикой или химией).
3. Важность слова shared в определении онтологии: в момент появления нового знания оно не онтология, это просто чьи-то личные мысли. Но по мере того, как знание овладевает массами, оно становится онтологией. Большинство современных подходов предполагают выучивание онтологии у масс, т.е. выучиваются только фолк-онтологии, со всеми их biases, ошибками и суевериями. Онтологическая инженерия понимается часто именно как запечатление этой народной онтологии в формальном языке. Но это не позволяет говорить о прямой онтологической инженерии, применении принципов радикального конструктивизма. Меня этот аспект очень трогает, я ведь и сам радикальный конструктивист, поэтому для меня важны и аспекты эпистемологические, и аспекты деятельностные (
http://ailev.livejournal.com/661094.html,
http://ailev.livejournal.com/860017.html), с ними тоже нужно разбираться.
4. И ещё хотелось бы напомнить "мою космонтику"
http://ailev.livejournal.com/1268678.html, где тоже поднимаются проблемы онтологизирования, моделирования в связи с эволюцией и развитием, так что "выучить онтологию" и расслабиться не получится, всё это нужно как-то переводить на life-long learning. Все эти biases плывут во времени, плывут в разных социумах, обучение на материале учебников будет сильно отличаться от обучения на материале коммунистической прессы или статей в arxiv -- и это всё тоже нужно как-то разводить, застывшие канонические семантические пространства не будут работать, часть возражений от Nando de Freitas из
http://ailev.livejournal.com/1240509.html сюда.
Онтологические (и по сопричастности метафизические) проблемы, конечно, будут вылезать не только из работ по human biases, не только из необходимости обеспечивать рассуждения (логический вывод) в понимании естественного языка, не только из связанных с решением инженерных задач работ. Для меня, например, связь текстов-описаний и реального физического мира (например, фотографий -- буквально, "картины мира") это тоже часть выхода на онтологии. Вот, например,
https://github.com/paarthneekhara/text-to-image -- Text To Image Synthesis Using Thought Vectors. Посмотрите, какая интересная архитектура, где по описаниям генерируются картинки:
Есть буквы, складывающиеся в слова, которые складываются в мысли (предложения). Эти мысли представляются как находящиеся в семантическом пространстве (значений). Это семантическое пространство отображается как-то на физическое пространство (данное в виде изображений физического мира). Эти соотношения как-то выучиваются. Эпистемология, ответ на вопрос "как узнал": выучил! А дальше в ответ на описание можно выдать целевую картинку мира. Дьявол, но это ведь "творение мира" -- инженерный ход! Текстовое описание необязательно ведь будет совпадать со встреченным в учебной выборке. А сгенерированная по представленному мной тексту-пожеланию-спецификации картинка может считаться моделью физического целевого мира. Так что приведённая на картинке архитектура генерации изображений по текстам в какой-то мере деятельностная, инженерная. Сгенерированное изображение, сгенерированную модель/описание/картину мира можно затем использовать непосредственно для преобразования мира, для творения в прямом (онтологическом, а не лингвистическом) смысле слова.