Нужен фордеф

Dec 17, 2011 15:34

Мы сами, конечно, выпустили онтологический редактор на этой неделе (http://ailev.livejournal.com/968936.html) -- вроде как поучаствовали в мировом прогрессе. Но это строго работа со структурированными данными -- т.е. формальными языками. Меня по-прежнему беспокоит, что мы пока не работаем с данными неструктурированными, т.е естественными языками (разумеется, разными -- например, текстами стандартов ISO, ГОСТ и DIN). Сегодня я опять платил за Pandora.com, и опять думал о необходимости выхода на полную когнитивную архитектуру, сочетающую формализмы (DSL для разных предметных областей) и "формализатор-деформализатор" (fordef, фордеф, как в "модем") для перевода текста на естественных языках в формализмы и обратно. В прошлый раз это было 4 декабря 2010г. (http://ailev.livejournal.com/884842.html), и я тогда различил два минимально нужных направления как "семантики языков программирования" против "семейного сходства" по Витгенштейну, теории прототипов и лингвистических моделек).

Самое интересное начнется тогда, когда мы устроим "программирование на больших данных" -- а это возможно только при наличии большого объема знаний о мире, перегруженных из неструктурированных текстов в высокоструктурированные формальные представления (программный код, онтологии). Эти знания о мире представлены главным образом на естественном языке, и без учета всех этих "4D времени" и "факт-ориентированного подхода". Вот этот естественный язык с его винегретными онтиками и нужно уметь понимать, и компилировать его в "машинный код" (языки программирования и языки данных/онтологии) -- а дальше уже демонстрировать "думание" (какой-нибудь generative design и generative manufacturing). Поэтому я пытаюсь как-то отслеживать большие лингвистические проекты, идущие в этом направлении:
-- CYC -- http://cyc.com/cyc/technology/pubs
-- VivoMind Analogy Engine (слайды 81-102 вот тут: http://www.jfsowa.com/talks/goal.pdf и пункт 5 обзора про когнитивные архитектуры http://www.jfsowa.com/pubs/ca4cs.pdf)
-- IBM Business Analytics and Optimization (IBM Watson -- это была рекламка для этого прокта): http://www.ibm.com/software/data/business-analytics-optimization/
-- Apple Siri -- (это был коммерциализированный проект DARPA 2003г., об этом и продолжении работ DARPA см. http://www.defenseindustrydaily.com/Beyond-Siri-DARPAs-BOLT-07185/).
-- ABBYY Compreno -- http://kommersant.ru/doc/1822898
-- Google X Majel -- http://androidandme.com/2011/12/news/more-info-on-googles-majel-moving-a-little-faster-towards-that-star-trek-future/ (хотя тамошние утечки и являются по большей частью подозрительно преувеличенными: секретность там будет похлеще, чем у ABBYY).

Я вполне понимаю, что можно было бы привнести своего: контринтуитивные представления, позволяющие компактно и точно моделировать инженерный мир. Идея тут приблизительно та же, что приведена в книжке BORO: можно из "традиционных" плохоформализованных описаний пытаться получить описания в наилучших из известных на сегодня формализмов, относящихся к какой-то одной картине мира (чтобы можно было хоть как-то объединять эти описания, не боясь, что они описывают не по-разному один объект, а по-разному разные объекты). Так сказать, "контринтуитивная формализация", а для формальных представлений -- "контринтуитивный реинжиниринг", "контринтуитивная реформализация".

Если за CYC и Siri скрываются "бытовые" онтологии "лириков по жизни", то в .15926/PraxOS были бы инженерные представления в основе. И наш софт поэтому попросту был бы в инженерных задачах умнее примерно так же, как умнее инженер историка или литературоведа (при этом не сомневаюсь, что "литературоведческий AI" не сможет решать инженерные задачи, а вот "инженерный AI" вполне сможет показывать удивительные результаты и в литературоведении).

Для этого нужно встроиться с ISO 15926 в огромную технологическую цепочку с тяжелыми САПР и PLM, программами распознавания текстов ГОСТов и текстов учебников сопромата (а также учебников и статей -- с формулами, конечно), и т.д.. Вот этим распознаванием технических текстов с вкрапленными в них формализмами (иногда -- "якобы формализмами", типа алхимических текстов вместо химических) я и интересуюсь -- пока чисто академически, но выделяя на это всё больше и больше времени. Нужен фордеф -- формализатор-деформализатор, formalizer-deformalizer, fordef. Можно говорить также о "распознавании-рендеринге", это ничем не лучше, впрочем и не хуже.

А пока этого фордефа в пользовании нет, будет пичалька характеризации более и менее формальных и неформальных текстов, диаграмм и прочих чертежей вголовную (увы, слово "вручную" тут не подходит). Но это пичалька. Я хорошо помню, как лениво было мне когда-то считать логарифмической линейкой, когда соседи по планете уже вовсю испытывали первые калькуляторы!
Previous post Next post
Up