В этот день 16 лет назад

Jan 20, 2025 16:13


Этот пост был опубликован 16 лет назад!

#этотденьвблоге

Leave a comment

Comments 7

tvrjert January 20 2025, 16:14:31 UTC

Ну вот. Пророчества сбываются.

Китайцы выкатили модель уровня O1 по цене в 25 раз ниже

https://github.com/deepseek-ai/DeepSeek-R1


... )

Reply

ext_2715974 January 21 2025, 03:52:14 UTC
Все так. Китайцы молодцы, сам я их модель пока не тестил, но насколько помню, она опен-сурс, код открыт. Следовательно, учитывая дичайшую конкуренцию в теме ИИ, скоро их идеи окажутся внедрены всеми конкурентами от антропик и компаний Маска до гугла.

P.S: все же согласитесь, что прогресс за год-полтора отличный. Рассуждающие модельки, обучающиеся на синтетических данных - уже данность, включая последние версии gpt. Это уже не просто перемножение матриц. Да, как всегда есть свои ограничения, но со временем и их обойдут.
Не знаю насчет AGI и сингулярности, не заглядываю так далеко, но вижу, что тут открыты огромные перспективы и новые рынки, а значит - за них пойдет борьба, а значит - эта тема продолжит ускоренно развиваться.

Reply

tvrjert January 21 2025, 07:11:16 UTC

Китайцы добрые ребята - да ж).

Проблема MOS моделей в балансировке экспертов при обучении. Такими модельками на западе стали заниматься года на 2 раньше китайцев, только все что получалось сливало в итоге монолитным моделям. На том и забили.

Обучить модельку с сотней экспертов, чтобы она не сливала монолитной сравнимого размера - это нужно что-то знать такое, что другие не знают. И при этом иметь наглость вот так все демонстрировать.

С рассуждающими модельками все не так хорошо, как показывают тесты под которые они заточены. Реальные результаты сильно отличаются от метрик в худшую сторону, и для этого есть серьезные причины.

Не знаю насчет AGI и сингулярности - ни тем ни другим не пахнет пока + индустрия вранья, пожравшая запад изнутри, как мы видим, даже сильнее РФ, приводит к похожим результатам - см СВО и бравурные отчеты.

Это уже не просто перемножение матриц. - технически это именно перемножение матриц, как и наличие длинного списка того, что там архитектурно не сделано, чтобы реально быть тем, о чем пропаганда кричит.

Но ( ... )

Reply

ext_2715974 January 21 2025, 12:13:34 UTC
Хе-хе, поигрался слегка с дип-сик, интересная моделька. Хорошо, что для начала диалога достаточно емейл указать. С фото-видео пока не работает, но отвечает все по делу. Собственно линк на модель - https://chat.deepseek.com/sign_in


... )

Reply


Leave a comment

Up