Все так. Китайцы молодцы, сам я их модель пока не тестил, но насколько помню, она опен-сурс, код открыт. Следовательно, учитывая дичайшую конкуренцию в теме ИИ, скоро их идеи окажутся внедрены всеми конкурентами от антропик и компаний Маска до гугла.
P.S: все же согласитесь, что прогресс за год-полтора отличный. Рассуждающие модельки, обучающиеся на синтетических данных - уже данность, включая последние версии gpt. Это уже не просто перемножение матриц. Да, как всегда есть свои ограничения, но со временем и их обойдут. Не знаю насчет AGI и сингулярности, не заглядываю так далеко, но вижу, что тут открыты огромные перспективы и новые рынки, а значит - за них пойдет борьба, а значит - эта тема продолжит ускоренно развиваться.
Проблема MOS моделей в балансировке экспертов при обучении. Такими модельками на западе стали заниматься года на 2 раньше китайцев, только все что получалось сливало в итоге монолитным моделям. На том и забили.
Обучить модельку с сотней экспертов, чтобы она не сливала монолитной сравнимого размера - это нужно что-то знать такое, что другие не знают. И при этом иметь наглость вот так все демонстрировать.
С рассуждающими модельками все не так хорошо, как показывают тесты под которые они заточены. Реальные результаты сильно отличаются от метрик в худшую сторону, и для этого есть серьезные причины.
Не знаю насчет AGI и сингулярности - ни тем ни другим не пахнет пока + индустрия вранья, пожравшая запад изнутри, как мы видим, даже сильнее РФ, приводит к похожим результатам - см СВО и бравурные отчеты.
Это уже не просто перемножение матриц. - технически это именно перемножение матриц, как и наличие длинного списка того, что там архитектурно не сделано, чтобы реально быть тем, о чем пропаганда кричит.
Хе-хе, поигрался слегка с дип-сик, интересная моделька. Хорошо, что для начала диалога достаточно емейл указать. С фото-видео пока не работает, но отвечает все по делу. Собственно линк на модель - https://chat.deepseek.com/sign_in
Comments 7
Ну вот. Пророчества сбываются.
Китайцы выкатили модель уровня O1 по цене в 25 раз ниже
https://github.com/deepseek-ai/DeepSeek-R1
( ... )
Reply
P.S: все же согласитесь, что прогресс за год-полтора отличный. Рассуждающие модельки, обучающиеся на синтетических данных - уже данность, включая последние версии gpt. Это уже не просто перемножение матриц. Да, как всегда есть свои ограничения, но со временем и их обойдут.
Не знаю насчет AGI и сингулярности, не заглядываю так далеко, но вижу, что тут открыты огромные перспективы и новые рынки, а значит - за них пойдет борьба, а значит - эта тема продолжит ускоренно развиваться.
Reply
Китайцы добрые ребята - да ж).
Проблема MOS моделей в балансировке экспертов при обучении. Такими модельками на западе стали заниматься года на 2 раньше китайцев, только все что получалось сливало в итоге монолитным моделям. На том и забили.
Обучить модельку с сотней экспертов, чтобы она не сливала монолитной сравнимого размера - это нужно что-то знать такое, что другие не знают. И при этом иметь наглость вот так все демонстрировать.
С рассуждающими модельками все не так хорошо, как показывают тесты под которые они заточены. Реальные результаты сильно отличаются от метрик в худшую сторону, и для этого есть серьезные причины.
Не знаю насчет AGI и сингулярности - ни тем ни другим не пахнет пока + индустрия вранья, пожравшая запад изнутри, как мы видим, даже сильнее РФ, приводит к похожим результатам - см СВО и бравурные отчеты.
Это уже не просто перемножение матриц. - технически это именно перемножение матриц, как и наличие длинного списка того, что там архитектурно не сделано, чтобы реально быть тем, о чем пропаганда кричит.
Но ( ... )
Reply
( ... )
Reply
Leave a comment