75 картинок ablation: Reddit-критика и переосмысление FLUX-LoRA пайплайна

Систематическое исследование: 5 вариантов пайплайна, утечка данных через кириллицу, и почему «сэндвич» — это костыль, а не решение.

Мы тренировали FLUX-LoRA для генерации иллюстраций в стиле советских спичечных коробков. Первые результаты выглядели хорошо — до тех пор, пока Reddit не разобрал их по косточкам. Критика заставила нас провести честный ablation study.

Мы протестировали 5 вариантов пайплайна на нескольких random seed: чистый LoRA, двухпроходный «сэндвич», разные значения LoRA scale, с кириллическими подсказками и без. 75 изображений, слепое сравнение.

Главная находка: двухпроходный «сэндвич» маскировал проблемы, а не решал их. Утечка тренировочных данных проявлялась в виде кириллического текста на изображениях. LoRA scale был неоптимальным — при правильном значении однопроходная генерация давала результат не хуже «сэндвича».

Правильный fix — расширить датасет и перетренировать LoRA, а не полагаться на трюки с пайплайном. Reddit-критика была неприятной, но привела нас к правильному решению.

Вывод для всех, кто тренирует LoRA: если ваш результат зависит от pipeline tricks — это сигнал, что проблема в тренировке, а не в инференсе. Ablation study — обязательный шаг перед тем, как объявлять результат.

Полная статья с таблицами и визуализацией — на Хабре. Генератор картинок работает на pinock.io.