Проверка делом

Sep 14, 2024 12:34


-Итак, вышла нашумевшая версия OpenAI под названием o1.
Правда ли, что она лучше всех умеет рассуждать? Проверим.

Вот логическая задача (можете, кстати, сами попробовать решить, прежде чем читать дальше):

Five different people live in five different houses. These houses are arranged in a line.
Each house is a different color: red, green, yellow, ( Read more... )

Leave a comment

Comments 18

mopexod September 14 2024, 05:24:05 UTC
А они в каком смысле 'ищут ответ'? Самый часто встречающийся в исходном корпусе текстов?
Сомневаюсь, что как-то иначе.

Reply

catpad September 14 2024, 05:32:06 UTC

Не знаю, как остальные, но новый о1 полностью приводит цепочку рассуждений. Я хотел её в пост вставить, но уж больно длинная.
Но, так как он разрешает делать линки на чаты, то вот, пожалуйста:
https://chatgpt.com/share/66e51f7a-0100-8009-8e75-dcdc85b0c27d

Я думаю, там всё по-честному.

Reply

mopexod September 14 2024, 05:45:17 UTC
Я тоже попробую. Пока, всё что я пробовал дать логического, было совершенно беспомощно.

Reply

catpad September 14 2024, 05:49:40 UTC

Именно. Но вот первый раз я вижу настоящие результаты.

Reply


ollo September 14 2024, 05:40:54 UTC
я когда мне нужно что-то от AI, стараюсь использовать сразу всех, а потом уже решаю у кого лучше ответ

Reply

catpad September 14 2024, 05:42:51 UTC

Я тоже.

Reply


yatur September 14 2024, 05:44:56 UTC
Это все очень хорошо. Но вот если сказать ему "возьми вот эти 50 named tuples и сделай из них датаклассы" он сделает? Или, как его предшественники, сделает первые 10 и скажет, что готово?

У меня опыт только с ChatGPT и Github Copilot'ом. И тот, и другой, ведут себя как ленивый человек и норовят нудные задания бросить а полпути. Типа, пропустить какой-нибудь requirement (а вдруг прокатит?) или обработать только часть предложенных объектов. Причем, если его пнуть - так ты ж не доделал - он скажет "ой, действительно" и сделает еще кусочек.

Я подозреваю, что это происходит из-за того, что вся обработка происходит на компьютерах "хозяев", а их ресурс не бесконечен, поэтому они вынуждены снижать нагрузку такими вот методами. Но это резко снижает надежность, а, следовательно, и полезность всех этих умных машин.

Reply

catpad September 14 2024, 05:52:27 UTC

Делал я всякое, и со списками в 200 элементов. Конкретно такое задание не давал, но не вижу проблемы. Они всё же сильно увеличили окно в последнее время.
Другое дело, что это первый раз, когда он реально решает логические задачи.

Reply


avva September 14 2024, 07:18:04 UTC

Объяснение решения второй задачи кажется притянутым за уши. Подозреваю, что решение взято из корпуса тренировки.

Я попробовал создать идентичную копию второй задачи с переименованными обстоятельствами. Я не только изменил сюжет, но и поменял на случайные буквы названия комнат и поменял порядок, в каком указаны знаки на них. ChatGPT o1 думал 67 секунд и надумал какую-то полную херню. Ответ неправильный (комната номер 1 в терминах исходной задачи), объяснение бессмысленное.

https://chatgpt.com/share/66e537bb-e058-8008-8860-68414005b042

Mapping номеров комнат к буквам в моей задаче:

H 7

Y 2

P 4

O 1

C 8

R 6

I 3

T 5

E 9

Reply

catpad September 14 2024, 07:52:56 UTC

Ну что ж, значит они нас знатно надурили.
(Хотя надо внимательно проверить, а вдруг О всё же работает).

Reply

gianthare September 14 2024, 08:47:35 UTC

О, я как раз хотел предложить поменять все существительные на nonsense words

Reply

catpad September 14 2024, 09:05:27 UTC

Я однажды так проверил его на "понимание прочитанного" на своей книге, которую он видеть не мог. Этот тест он прошёл на ура.
Но вот здесь avva его разоблачил.
Сейчас думаю, чем бы ещё его помучать.

Reply


mimafi September 14 2024, 21:14:20 UTC
Не подскажете, какой ИИ лучше умеет в чертежи?

Reply

catpad September 14 2024, 22:50:11 UTC
Никто из них не умеет рисовать заданные чертежи. Диаграммы можно в ChatGPT.

Reply

mimafi September 15 2024, 04:38:42 UTC
Да, я ChatGPT на пробу попросила внести поправки в чертеж. Увы.

Reply


Leave a comment

Up