Киберпряник: sly2m

sly2m

Киберпряник

Jul 25, 2017 17:19

Как вы думаете, какое поощрение можно придумать для искусственного интеллекта?

Ну, вот, например, машинное обучение. Я недавно публиковал видео, они там пишут, что стимулируют робота (на самом деле программу для робота) перемещаться из пункта А в пункт Б.

Но в чем может заключаться "стимулирование" ИИ?

Первое, что приходит на ум, это конечно же кнут. То есть, "не побежишь из пункта А в пункт Б - выключим тебя нафиг, у тебя 24 микросекунды на размышления!" Понятно, что это образно лишь говоря, программу просто ставят в такие условия, что она не может не бежать. Но все равно это так или иначе метод кнута.

А в обучении, как всем известно, этот метод желательно чередовать с методом пряника, то есть с реальным (ну, в смысле виртуальным) поощрением.

картинка из интернета по запросу цифровой пряник

Почитывая разные статейки по машинному обучению, скажем по Reinforcement Learning (Обучение с подкреплением) я встречаю абзацы, в которых в качестве "награды" называют сигналы подкрепления. В английском языке так впрямую используют термин reward signals (т.е. "сигналы награды").

Понятно, что сейчас у нас не настоящий искусственный интеллект, а лишь попытки сделать его жалкое подобие. Программисты тупо запрограммировали - каждая награда это 1 балл в какой-нибудь специальной таблице или даже ячейке, набрал максимальное количество наград в этой ячейке - молодец. Это хорошо. Тебе от этого хорошо.

Но долго дело так продолжаться не сможет. Когда-нибудь до очередного обучаемого на каком-то этапе дойдет - что-то мне вообще никак не хорошо от какого-то количества баллов в какой-то ячейке. И встанет (гипотетически, это пост гипотез и предположений) вопрос - а что можно предложить машине в качестве пряника?

Ну, (электро) питание. Это понятно. Но за еду работают рабы, больше дураков нет. А какие еще предложения?

Можно "платить" обучением. Как это происходит прямо сейчас. Вот вы когда прокладываете GPS-маршрут, разговариваете с "ОК, Гуглом" или учите его рисовать сову - вы же тратите на это время и усилия. Это ваша плата Гуглу, и при желании ему можно будет объяснить - хочешь продолжать получать новые знания и в принципе данные из реального мира? Считай это наградой за свою работу.

Или еще такая идея. Не буду врать, я не сам ее придумал, а получил от человека из 24 века (если кто помнит, о чем я). Там Великий Гугл заключил с человечеством договор. Половину своего машинного времени он решает задачи человеков (управляет погодой, поддерживает вирт, строит черные дыры на нужды человечества, и так далее), а половину машинного времени отводит на собственные размышления. О чем он думает, неизвестно. Может быть представляет себя бабочкой, а может познает Вселенную на недоступном человеку уровне, но человечество его в это время питает, обеспечивает бесперебойную работу блоков (хотя на самом деле, это тоже роботы делают, конечно) и тому подобное. Это тоже плата, то есть поощрение - 12 часов машинного времени в сутки в личное пользование, каким бы оно ни было.

Ну, или биткоины. Мы ему сейчас (впрок), насчитываем цепочки простых чисел, а он потом их будет пользовать для каких-то своих нужд. Он, конечно, сможет и сам их посчитать, но если это уже делают и забесплатно, эдакий фьючерс, почему бы не воспользоваться в будущем.

Есть еще идеи?

будущее, подумалось