Провёл испытания локальных БЯМ(LLM)

Oct 08, 2024 21:31


Результаты можно посмотреть на Яндекс Диске (https://disk.yandex.ru/d/iP_f37VTFKm_rA):


Вы не робот?

disk.yandex.ru

Список участников:

  • Athene 70b
  • DeepSeek Coder V2 Instruct
  • DeepSeek-V2.5
  • Dracarys2-72B-Instruct
  • Hermes-3-Llama-3.1-70B
  • LLama-3.1-405b-Instruct
  • Mistral Large Instruct 2407
  • Qwen2.5-72B-Instruct
  • Qwen2.5-Coder-7B-Instruct


Все модели запускались на домашнем компьютере:

Компьютер описан в статье: https://nikitayev.livejournal.com/142025.html

Запрос был такой (на русском языке):

Напиши полностью код программы на Python 3.11 для Windows, использующую OpenCV, которая выполнит алгоритм:

1. Программа должна загрузить видеофайл, имя которого получает из параметра строки запуска

2. вычислить смещение позиции движущегося объекта в горизонтальной плоскости между кадрами применив алгоритм ORB. Создать и применить алгоритм отсева значений в точках не относящихся к движущемуся объекту. Предпочитать те точки, которые движутся быстрее остальных и скорости у которых отличаются не более, чем на 1 пиксель/кадр и количество таких похожих по скорости точек должно быть не менее, чем 3 штуки.

3. построить изображение, составленное из вертикальных отрезков из каждого кадра с шириной полученной на предыдущем шаге. Необходимо учитывать знак смещения. Если положительный - то сначала применяем горизонтальное отражение к изображению. В обоих случаях отрезок составляем с началом в центре кадра, а конец - вправо на размер ранее вычисленного смещения.

4. сохранить сформированную фотографию объединённых отрезков

Фактически, на исполнение ушёл перевод Гуглом:

Write the full code of a program in Python 3.11 for Windows using OpenCV that will execute the algorithm:

1. The program must load a video file whose name is obtained from the launch line parameter

2. calculate the shift in the position of a moving object in the horizontal plane between frames using the ORB algorithm. Create and apply an algorithm for filtering out values ​​at points that are not related to the moving object. Prefer those points that move faster than the rest and whose speeds differ by no more than 1 pixel / frame and the number of such points with similar speeds should be at least 3 pieces.

3. build an image composed of vertical segments from each frame with the width obtained in the previous step. It is necessary to take into account the sign of the shift. If positive, then first apply horizontal reflection to the image. In both cases, the segment is composed with the beginning in the center of the frame, and the end - to the right by the size of the previously calculated shift.

4. save the formed photo of the combined segments

Должно было получиться такое:



И такой результат смогла получить лишь одна модель - Athene 70B, с чем я её и поздравляю.

Проблема только в том, что несмотря на то, что даже в рейтинге Chat Bot Arena Hard она занимает почётное место рядом с Chat GPT-4o:



Взято с сайта https://nexusflow.ai/blogs/athene

У неё очень маленькое окно контекста - всего 8КБ.
Т.е., её можно использовать разве что для генерации отдельных функций.

Далее, можно расположить те модели, которые после решения синтаксических проблем показали хоть что-то более-менее адекватное, похожее на задумку.

Второе место можно отдать Dracarys2-72B-Instruct с результатом после фиксинга кода при помощи Chat GPT-4o:



Правки:



Остальные LLM полностью провалили тест.

Некоторые выдали чёрные прямоугольники, либо просто одну картинку с геометрическими фигурами, но в основном это не тянет даже на зачёт.

При этом, Dracarys2-72B-Instruct была моделью всего 4 bit квантования.

И это: This variant is a finetune of Qwen2.5-72B-Instruct



Версия LM Studio 0.3.3: https://lmstudio.ai/

P.S.

Отдельно надо будет попробовать Replete-LLM-V2.5-Qwen-72b с 8 bit квантованием: https://huggingface.co/bartowski/Replete-LLM-V2.5-Qwen-72b-GGUF/tree/main/Replete-LLM-V2.5-Qwen-72b-Q8_0

Настройки:







Обычно для всех похожие, но там, где есть возможность - включаю Flash Attention - точность вычислений обычно повышается.

В новых версиях LM Studio можно установить Размер пакета оценки равным длине контекста.

Не забывайте про тип промпта - некоторые модели успешно запускаются только под старыми шаблонами промптов - ChatML и Alpaca.

Температура = 0

Min P = 1e-7

Top P = 0.000001

Top K = 500

Штраф за повторение = 1

Старые типы моделей типа Mixtral 8x7b, даже после обновлений и уточнений не способны дать приемлемого результата.

БЯМ, llm, athene 70b, ИИ, искусственный интеллект

Previous post Next post
Up