Comments | catpad: Проверка делом

catpad

Проверка делом

Sep 14, 2024 12:34

-Итак, вышла нашумевшая версия OpenAI под названием o1.
Правда ли, что она лучше всех умеет рассуждать? Проверим.

Вот логическая задача (можете, кстати, сами попробовать решить, прежде чем читать дальше):

Five different people live in five different houses. These houses are arranged in a line.
Each house is a different color: red, green, yellow, ( Read more... )

Comments 18

mopexod September 14 2024, 05:24:05 UTC

А они в каком смысле 'ищут ответ'? Самый часто встречающийся в исходном корпусе текстов?
Сомневаюсь, что как-то иначе.

catpad September 14 2024, 05:32:06 UTC

Не знаю, как остальные, но новый о1 полностью приводит цепочку рассуждений. Я хотел её в пост вставить, но уж больно длинная.
Но, так как он разрешает делать линки на чаты, то вот, пожалуйста:
https://chatgpt.com/share/66e51f7a-0100-8009-8e75-dcdc85b0c27d

Я думаю, там всё по-честному.

mopexod September 14 2024, 05:45:17 UTC

Я тоже попробую. Пока, всё что я пробовал дать логического, было совершенно беспомощно.

catpad September 14 2024, 05:49:40 UTC

Именно. Но вот первый раз я вижу настоящие результаты.

Thread 5

ollo September 14 2024, 05:40:54 UTC

я когда мне нужно что-то от AI, стараюсь использовать сразу всех, а потом уже решаю у кого лучше ответ

catpad September 14 2024, 05:42:51 UTC

Я тоже.

yatur September 14 2024, 05:44:56 UTC

Это все очень хорошо. Но вот если сказать ему "возьми вот эти 50 named tuples и сделай из них датаклассы" он сделает? Или, как его предшественники, сделает первые 10 и скажет, что готово?

У меня опыт только с ChatGPT и Github Copilot'ом. И тот, и другой, ведут себя как ленивый человек и норовят нудные задания бросить а полпути. Типа, пропустить какой-нибудь requirement (а вдруг прокатит?) или обработать только часть предложенных объектов. Причем, если его пнуть - так ты ж не доделал - он скажет "ой, действительно" и сделает еще кусочек.

Я подозреваю, что это происходит из-за того, что вся обработка происходит на компьютерах "хозяев", а их ресурс не бесконечен, поэтому они вынуждены снижать нагрузку такими вот методами. Но это резко снижает надежность, а, следовательно, и полезность всех этих умных машин.

catpad September 14 2024, 05:52:27 UTC

Делал я всякое, и со списками в 200 элементов. Конкретно такое задание не давал, но не вижу проблемы. Они всё же сильно увеличили окно в последнее время.
Другое дело, что это первый раз, когда он реально решает логические задачи.

avva September 14 2024, 07:18:04 UTC

Объяснение решения второй задачи кажется притянутым за уши. Подозреваю, что решение взято из корпуса тренировки.

Я попробовал создать идентичную копию второй задачи с переименованными обстоятельствами. Я не только изменил сюжет, но и поменял на случайные буквы названия комнат и поменял порядок, в каком указаны знаки на них. ChatGPT o1 думал 67 секунд и надумал какую-то полную херню. Ответ неправильный (комната номер 1 в терминах исходной задачи), объяснение бессмысленное.

https://chatgpt.com/share/66e537bb-e058-8008-8860-68414005b042

Mapping номеров комнат к буквам в моей задаче:

H 7

Y 2

P 4

O 1

C 8

R 6

I 3

T 5

E 9

catpad September 14 2024, 07:52:56 UTC

Ну что ж, значит они нас знатно надурили.
(Хотя надо внимательно проверить, а вдруг О всё же работает).

gianthare September 14 2024, 08:47:35 UTC

О, я как раз хотел предложить поменять все существительные на nonsense words

catpad September 14 2024, 09:05:27 UTC

Я однажды так проверил его на "понимание прочитанного" на своей книге, которую он видеть не мог. Этот тест он прошёл на ура.
Но вот здесь avva его разоблачил.
Сейчас думаю, чем бы ещё его помучать.

Thread 5

mimafi September 14 2024, 21:14:20 UTC

Не подскажете, какой ИИ лучше умеет в чертежи?

catpad September 14 2024, 22:50:11 UTC

Никто из них не умеет рисовать заданные чертежи. Диаграммы можно в ChatGPT.

mimafi September 15 2024, 04:38:42 UTC

Да, я ChatGPT на пробу попросила внести поправки в чертеж. Увы.