О соотношении должного и желанного, или почему нет естественного термина для Q-значений: vi

vi_z

О соотношении должного и желанного, или почему нет естественного термина для Q-значений

Jan 15, 2006 20:04

"Разумный гедонизм" требует учета удаленных последствий действий. В естественном языке нет понятия, которое бы соответствовало ожидаемому суммарному последствию действий (как Q-value в RL, с учетом дисконта или без). Желанность используется как руководство на небольшом расстоянии от целей, на большом расстоянии используется планировщик, игнорирующий желанность "дороги". Я обсуждаю, почему, на мой взгляд, в эволюционно-запрограммированном механизме для человека не используются Q-значения и к каким последствиям это приводит.

Гедонистическая этика утверждает непосредственное следование желанному. Однако, непосредственное следование, с точки зрения computer science является жадным алгоритмом, а такие алгоритмы, как известно, не обязательно приводят к максимизации (возможно, дисконтной) суммы счастья по всему времени. Так, например, избыточное употребление алкоголя может сразу дать приятный результат, но возмущенный желудок позднее, причём сумма обоих удовольствий может оказаться меньше, чем воздержание от алкоголя. Таким образом, "разумному гедонисту", которому хотелось бы получить от жизни как можно больше, нужно одновременно учитывать близкие и далекие последствия своих действий, и как-то балансировать распределение ресурсов между ними.

Желанность, по всей видимости, учитывает только непосредственную ценность явлений. Мне не приходилось встречать конструкций вроде "ох, как мне хочется открыть дверь" (в спальню любимой) и т п. Эмоциональное окрашивание (переход приятности с самого явления на способы его достижения и одновременные явления), конечно, происходит, и оно используется в НЛП в якорении, но оно не производится глобально и происходит достаточно бессистемно. Вообще, "окраска" у человека напоминает поведение несошедшегося алгоритма RL.

Возможным техническим решением проблемы балансирования между непосредственными и удаленными эффектами действий было бы введение некоторой производной чувственной величины, которая бы окрашивала все действия, но учитывала бы не только непосредственную желанность, но и опосредованную. Действуя "жадно" согласно этой величине, мы бы автоматически действовали оптимально с точки зрения сорванных плодов желания с учетом удаленных эффектов наших действий. В Reinforcement Learning в AI такую величину называют Q-значениями. (формула с объяснениями).

Используется ли такое техническое решение в человеке? Если используется, то какое модальное слово в естественном языке соответствует Q-значениям, если рассматривать R как модель желания? Если бы такое решение применялось, то наверняка существовало бы некоторое слово, обозначающее желанное, но обозначающее также и неприятные вещи, которые являются средством достижением желанного в будущем. Кандидатами являются слова "нужно", "должно", "необходимо".

На мой взгляд, ни одно слово не отражает такого смысла. Более желанное по умолчанию (при прочих равных удаленных последствиях) не нужно, не необходимо, и не должно делать. Все эти слова означают несколько другое: что желанность/нежеланность в их контексте следует игнорировать.

Обычно считается, что RL хорошо описывает способ действия живых организмов, и в частности человека. Однако, с учетом отсутствия соответствующего термина в естественном языке, это скорее всего не так. Теоретически, в простых условиях Q-значений достаточно для оптимального поведения. На практике, RL не позволяет правильно считать направление движения в достаточной удаленности от цели, при недостаточности данных, или при большом шуме. Создается впечатление, что желания, конечно, образуют Q-значения, но значения, которым не дают достаточно времени и данных сойтись. Поэтому человеку приходится применять планировщики. Человек не использует Q-значений (дискаунтных сумм перспективной выгоды), но вместо этого применяет сочетание целевого планирования и жадного алгоритма.

Отстутствие подобных Q понятий приводит к невозможности униформного по времени поведения для человека. Простая правильная стратегия, работающая в обыденных терминах, будет переключаться с должного на желанное и обратно, в каждый момент времени четко понимая, занимается ли человек самым желанным, или самым должным. [TODO: Процитировать того специалиста, который говорил про "хотя бы час" в день на желанное. Кто помнит?]

reinforcement learning, decision making, planning