Тренирую модель с архитектурой LLaMa, но с посимвольной токенизацией и урезанную до 20 млн параметров. Обучение с нуля на русском корпусе.
Взял сейчас промежуточный чекпоинт, примерно 10B токенов прошло.
Отфайнтюнил на стихах, пробую генерацию продолжения для "У Лукоморья дуб зеленый":
пример генерации:
У Лукоморья дуб зеленый
(
Read more... )