Обязана быть ещё третья дорожка. Есть, по ней сейчас направляется DALL-E.
Откуда вообще возникла необходимость использовать ControlNet в SD и «думанье за пользователя» в MJ? Те, кто работает с первыми рисовалкам, знает: они промптом управляются, а не разговаривают. Бесполезно писать просьбы и подробно описывать композицию, нейронка поймёт дай бог половину. Набор тегов и управляющих слов через запятую работает много надёжнее.
А почему? Вот ChatGPT сносно понимает речь даже с опечатками, в чём тут проблема? Да просто исторически: первые рисовалки больше заботились именно о рисовании, а за анализ промпта отвечал небольшой готовый энкодер CLIP, уже натасканый на LAION. Других и не было. MJ использовал что-то аналогичного размера. Такой небольшой нейронки и хватало только на довольно простенькую разметку промпта.
Уже XL заметно прибавила в «уме», она способна понимать длинные промпты написанные почти натуральным языком и концепции оружия и инструментов. Только потому, что в пару к старому добавили ещё один, большой OpenCLIP.
Но возвращаясь к ChatGPT. Он на пару порядков больше CLIPов и способен понять тонкие нюансы промпта и упаковать это всё в вектор. Более того, он тренировался как мультимодальный и способен принимать картинки на вход. Что будет, если использовать его или аналог?
Встречайте DALL-E 3, где за энкодинг промпта отвечает большая языковая модель. Благодаря этому, можно описывать картинку в мелких деталях, включая композицию и взаимное расположение элементов.
Также «мощности» внутренней размерности и блоков внимания тут хватает, чтобы упаковать в эмбеддинг вагон предметов и персонажей (SD 1.5 с трудом справляется с тремя):
Можно проверить, если хватит терпения.
Причём не обязательно «в статике»: тут все эти предметы попросили погрузить на серфера
Тяжело
Также просто происходит смена стиля, добавка и удаление персонажей и предметов.
При этом качество самих картинок пока заметно хуже того, что выдают MJ и SD. Но возможность полноценно управлять через промпт, натурально разговаривая с нейронкой, подкупает. Вот только привязка к ChatGPT намертво...