lytdybr: ailev

ailev

lytdybr

Jun 20, 2020 02:02

Переписано уже 83% "Образования для образованных", при этом часть оставшегося нужно не столько переписывать, сколько написать с нуля. Но у меня скорость написания и переписывания, похоже, одинакова. Так что это меня не остановит. Потом нужно будет выправить терминологию (собранность и мастерство тут только пара слов), поправить структуру (непонятно ещё как -- поглядеть замыленным глазом), и дать правильные ссылки хотя бы на книги.

Пост про AI и танцы (генерация более минуты танцевального движения с весьма приличными уже результатами, танцы Spot от Boston Dynamics, плюс AI программа для диджейства, в которой можно смешивать по отдельности вокал, инструменты и перкуссию с разных треков): https://vk.com/wall-179019873_822. AI в искусстве примерно так же быстро развивается, как в играх. Только в играх есть победитель, а в искусстве про победу сложно говорить. Хотя нельзя считать, что деятели искусства не конкурируют друг с другом. Теперь вот ещё будут конкурировать и с AI.

Вот тут обсуждается расизм Ганди, он терпеть не мог африканцев: https://www.facebook.com/Timurid/posts/10222286092362688. Я там подогнал ещё один расистский индийский артефакт: шахматы. Запостил туда в комменты полуторагодовой давности видео https://youtu.be/YIX8BmkOcAE, где обсуждаются предложения по изменению цвета шахматных фигур. Чёрный (они в шахматах ходят всегда вторыми! как можно!) и белый предлагалось поменять на голубой и розовый (впрочем, это тоже можно уже считать не очень политкорректным). Теперь шутить нужно очень осторожно, в каждой шутке может оказаться только доля шутки. Blacklists по слухам уже повсеместно переименовывают. И все жизни уже ничего не значат, только жизни чёрных -- с обширными толкованиями, почему так, но меня эти толкования как-то не убеждают. Когда чёрным что-то можно, а белым нельзя -- это ж тоже расизм. Кто-то ведь должен это прямо сказать? Для меня всё происходящее -- это революционное "грабь награбленное", мародёрство под таким слоганом ведь всё равно мародёрство, а революция -- пролетарская, что бы там ни говорили. UPDATE: всё продолжается, теперь переименовывают эскимо, ибо это обижает народы Севера, а в комментах там уже делаются предложения чёрную металлургию назвать афрометаллургией, а картину Малевича -- афроквадратом, https://ria.ru/20200620/1573218067.html

Коронабесие вроде как кончилось, уже хорошо. Эта тема сменилась Ефремовым. Конституцию уже никто не обсуждает, цирк проехал через соцсети буквально за три дня и стал незаметным. Суд обязал Роскомнадзор вырубить Телеграм, а потом оказалось, что не обязал -- ибо Роскомнадзор сам был истцом. От всей этой абсолютно грязной истории с запретом Телеграма остались только потраченные на технические средства вырубания невырубаемого миллиарды рублей. Нет, этим запретом Телеграма занимались не неумелые идиоты, а очень умелые сволочи -- вы бы могли так скушать миллиарды рублей, и при этом ничего не изменить, и чтобы вам за это ничего не было? Жизнь наладилась, сюжеты меняются как обычно, каждые два дня.

Ладно, надо останавливаться, а то бывшие вирусологи придут в комменты, они ж назад в политологи перековались. А на какие-то ключевые слова и боты прибегут, у которых плохо натренированная мокрая нейронная сетка с крошечной языковой моделью. Вообще, нужно прекращать писать про политику. В политике все ведь разбираются (как и в футболе и воспитании детей), но от этого никаких изменений в мире нет. Поэтому что я напишу свои мысли, что не напишу -- результат ноль. Разбирающиеся в политике (то есть все) своего мнения от моих текстов не поменяют, а в мире в целом так и вообще ничего не изменится. Так что лучше буду заниматься своим делом, а про политику и без меня есть кому писать.

Давайте лучше о приятном: меня неожиданно спросили на этой неделе, что я думаю про задачи онтологической интеграции данных. Если бы был чудо-юдо онтологический движок, можно ли там было бы устроить прорыв? Я ответил, что в онтологической интеграции данных без очень крутой языковой модели ничего не будет, одного онтологического движка совершенно недостаточно. Когда трава была зеленее, а динозавр CYC спокойно её кушал, у него была интересная статья 2010 года про то, что 2% finetune знания поддерживались буквально всем корпусом остальных 98% pretrain common sense, нажитого непосильным ручным трудом (я писал об этом в 2012, когда нейросети ещё были незаметны на фоне онтологического исполина CYC -- https://ailev.livejournal.com/1011621.html, цитировал статью CYC). Основной тезис был в том, что в любом ответе на вопрос к этим 2% предметного знания встречаются знания из самых разных мест этих 98%, и это разные знания для каждого вопроса. Объём задействования common sense оказался едва ли не бОльшим, чем ожидали даже люди из CYC. В 2010 году, когда писал CYC и в 2012, когда писал я, конечно, всех этих finetune и pretrain слов вместе с "языковыми моделями" и в помине не было, но теперь есть. Непосильный ручной труд кодирования этих 98% common sense заменен непосильным уже финансово машинным трудом обучения языковой модели, а 2% предметного знания тоже сегодня вроде как выучиваются, а не кодируются. И фишка в том, что любой онтологический проект упирается сегодня в то, что без "языковой модели" он будет ужасен, а вручную языковую модель не сделать, слишком велики трудозатраты. Библиотеки справочных данных ISO15926 разбились ровно об это, в дикие трудозатраты, на выходе которых была в лучшем случае помойка (пользоваться тем ужасом было нельзя). Так что любую онтологическую разработку я сегодня бы проверял на присутствие этой самой языковой модели/кодированного здравого смысла. 98% по объёму тамошнего знания (всё равно, в форме knowledge graph ли, в форме нейронной сети ли) должны быть общими знаниями о мире, и лишь 2% -- знаниями по тем предметным областям, в которых мы ведём интеграцию данных жизненного цикла (или просто интеграцию данных, как говорят в тех краях, где нет инженеров, а только менеджеры). И задействовано будет в любом интеграционном акте не только 2% знания предметной области, но и обширные знания языка и мира (модель языка для меня состоит из собственно лингвистической функциональной части и из части моделирования мира на базе обычно народной онтологии, включая все суеверия: если при обучении модели прочтётся книжка про плоскую землю, то такие факты в этой модели тоже будут представлены. CYC с микротеориями тут, конечно, в разы лучше. Но тамошний knowledge graph ручной работы, что запредельно дорого и, скорее всего, там такая же помойка, как справочные данные ISO15926. Эти вещи должен делать неестественный интеллект. Уфф, выговорился, отбил привкус политики с языка.

Еда недели (оно же питьё недели): 100 грамм пломбира из морозилки и 170мл лунго из капсулы. Принимать три раза в день. Нет, не треснет. Вот теперь на языке нормальное послевкусие.