Comments | cosel_noster: Так это выглядит на моей машине

cosel_noster

Так это выглядит на моей машине

Mar 02, 2024 22:38

Трассировка маршрута к yandex.ru [5.255.255.77]
с максимальным числом прыжков 30:

1 Общий сбой.

Трассировка завершена.

наши сети

Comments 8

petrovich_dk March 15 2024, 10:46:54 UTC

Уважаемый Козя!

Не нашел в твоём ЖЖ подходящего поста, чтобы задать пару вопросов по прошлогодней публикации на МЕДИУМ:

РОБОТ ИДЁТ МЫ ВСЕ УМРЁМ!!!

(кстати о пунктуации - в этом заголовке словно бы не хватает знака?)

Из твоего комментария мне не ясно - эти "три поэта и два студента" были поставщиками хайку или оценщиками представленных хайку?

1. Если первое, то кто оценивал хайку и где гарантия, что эти трое+двое - не графоманы "со стажем"?

2. Если второе, то чьи были хайку сравнения, от каких авторов, и кто выступал оценщиком - эта пятёрка или...?

3. И наконец: из каких закромов и как формировалась выборка в триста тысяч хайку?

Возможно, всё это описано в статье, но если сможешь ответить хотя бы предельно кратко, буду весьма благодарен и премного признателен.

Дмитрий (Petrovich_dk)

cosel_noster March 18 2024, 10:58:17 UTC

Прошу прощения, что отвечаю с опозданием, просто замотался.

Сейчас бегло пересмотрел статью.

Из интернета каким-то способом (подробности не указаны) выловили полмиллиона хайку.

После удаления дубликатов осталось 300 000 хайку (корпус хайку).

Из корпуса хайку случайным образом выбрали 40 "контрольных стихов".

На корпусе хайку (включая "контрольные стихи") тренировали три автоматические модели, каждая из которых потом нагенерировала по 40 стихов.

Примеры: "облака зависшие над заснеженным полем звучат легко", "гусь пересекает молчание воздуха".

"Контрольные" и сгенерированные стихи перемешали и показали некоторому жюри - это выглядело как кукай со 160 кандидатами.

В жюри входило 5 человек - три поэта с более чем десятилетним стажем сочинения хайку и два студента - с годичным и двухгодичным стажем.

Они никак не связаны с "контрольными стихами" и при оценке увидели их впервые.

Каждый член жюри ставил оценку 1, 2 или 3. Потом оценки усреднили.

Средние оценки распределились так:

"Контрольные стихи" (написанные людьми) - 1.4.

Стихи ( ... )

cosel_noster March 18 2024, 11:19:02 UTC

А дурацкий заголовок - в память о заметке https://ria.ru/20190216/1550931969.html, после которой появились рекламные заголовки "АСТЕРОИД ЛЕТИТ МЫ ВСЕ УМРЁМ" и присказка "Но это не точно" по поводу и без повода.

petrovich_dk April 11 2024, 20:39:44 UTC

Уважаемый Козя, мои причины запредельной задержки с ответом выглядят настолько неприлично, что даже не пытаюсь оправдаться.

Спасибо за подробный ответ!

Как я понял, случайно отобранные стихи реальных авторов оказались оцененными как "средние" среди стихов АМ - это кажется неудивительным, потому что большинство того, что пишут не только у нас, но, подозреваю, и в Японии, находится на уровне плинтуса или чуть выше (хотя можно допустить, что японский плинтус заметно превосходит наш).

Обсуждалось ли в статье, как именно "на корпусе хайку ... тренировали три автоматические модели" (АМ) - предлагались какие-то комменты к каждому из 160 текстов или? И ещё две непонятки.

Тренировали ли их - каждую - по-разному или методика была одна, но различались некие хард-софтовые возможности этих АМ?

Различалась ли ширина разброса оценок произведений каждой из АМ и человечьих хайку, т.е. попались ли среди продуктов АМ (и авторов) действительно выдающиеся тексты или кучковались они тесно вокруг своих средних значений?

Разумеется, вопросы эти не столь ( ... )

cosel_noster April 13 2024, 16:24:10 UTC

1) как именно "на корпусе хайку ... тренировали три автоматические модели"?

Сведения довольно скупые.

Каждую из трёх моделей (соответственно, GPT-2, AWD-LSTM, BART) тренировали одинаково, в два этапа.

Сперва была построена языковая модель на основе публичной интернет-библиотеки Аодзора Бунко ("Библиотека Синее Небо") https://github.com/aozorabunko/aozorabunko

Это произведения худ. лит., у которых истекли сроки авторских прав, с древности до современности, 16 тыс. произведений, 220 млн. печатных знаков. Вся эта мвсса была поделена в пропорции 8:1:1 для обучения, валидации и тестирования.

Затем языковую модель "доводили" на полученных из интернета 500 тыс. хайку, 65 млн. печатных знаков. Этот корпус был сперва отфильтрован неким морфологическим анализатором MeCab (выбрано 300 тыс. хайку фиксированной формы 5-7-5 с сезонным словом), затем поделён 32:8:10 для обучения, валидации и тестирования.

После тренировки каждая модель сгенерировала по 1000 строк, из ( ... )

petrovich_dk April 20 2024, 17:39:54 UTC

"Также сказано, что у людей практически не было бессмысленных фраз"

- тем не менее, по "смыслу" люди оказались только на 3 месте!

Но по киго и кукаю выбрались аж на 2-е:

смысл киго кукай

GPT2 2.2 1.8 1.5

BART 2.1 1.6 1.3

люди 2.0 1.7 1.4

LSTM 1.5 1.4 1.1

Вообще, результаты кажутся интересными, но недостаток инфы затрудняет увидеть общую картину, точнее, сделать из нее какие-то связные выводы общего порядка. А кто-то из исполнителей или свидетелей попытались? Или пока ничего больше не опубликовано в связи с этим?

Жаль, не было про дисперсию. По представленным параметрам, как я понял, человечьи хайку не выпали ни в какую сторону - держатся середки. А вот по разбросу рукотворность могла бы оказаться заметна.

Интересно, а японцы на своих конкурсах уже начали ощущать засилье этого праздника жизни или там народ таким не занимается в массе?

А известно ли - корпус хайку для «обучения» наполнялся текстами с добасёшной эпохи (с «момента» зарождения жанра) или только ХХ веком ( ... )

cosel_noster April 22 2024, 07:42:43 UTC

1) "Также сказано, что у людей практически не было бессмысленных
фраз" - тем не менее, по "смыслу" люди оказались только на 3 месте!

Не могу ничего сказать.2) ...сделать из нее какие-то связные выводы общего порядка. А кто-то из исполнителей или свидетелей попытались? Их
интересовала только методика подготовки машины, которая позволяет точно
моделировать свойства языка (например, для машинного перевода). Они
сделали вывод, что модель с бОльшим количеством очков в таблице более
адекватная.3) Или пока ничего больше не опубликовано в связи с этим?Не знаю, не слежу за этим, на статью наткнулся случайно.

4) Интересно, а японцы на своих конкурсах уже начали ощущать засилье этого праздника жизни или там народ таким не занимается в массе?Собственно эксперимент проводился в лабораторных условиях, доступа к машинам и результатам у широкой публики нет.

5) А известно ли - корпус хайку для «обучения» наполнялся текстами с
добасёшной эпохи (с «момента» зарождения жанра) или только ХХ веком?

Неизвестно.

Thread 5