Дэмис Хасабис использует термин "General Purpose Learning Machine". Он сказал что это будет ИИ-ученый. Это есть в видео "Google's DeepMind CEO- Future & Capabilities of Artificial Intelligence(AI)" от начала года. Говорит, что это цель всех бриллиантовых гениев в DeepMind. Что мешает к "PathNet: Evolution Channels Gradient Descent in Super Neural
(
Read more... )
Comments 2
("But after the first task has been learned to this accuracy, learning the second task is faster, so when cSVHN
and CIFAR are learned as the second task with PathNet, then accuracies of 35.7% and 39.8% are achieved respectively")
Reply
PolictyNetwork сам генерирует экземляры игры из самого себя. Т.е. он генерирует не банальные дощечки го 19x19, а модели. А оценку дает среда (игра или что угодно еще). Input среды идет в PolicyNetwork, и посредством этой PolicyNetwork среда делает оценку.
В описываемом концепте AGI PolicyNetwork очень важна, т.к. нет такой детерминированности правил как в го. В концепте наоборот нет отдельной ValueNetwork
Reply
Leave a comment