DTGaraGe AI ACADEMY · IMAGE GENERATION

FLUX / STABLE DIFFUSION

ОТ НУЛАТА

генерирай изображения локално · без абонамент · пълен контрол
Stable Diffusion XL Flux.1 Dev ✓ ПРЕПОРЪЧАН Flux.1 Schnell SD 3.5 ComfyUI AUTOMATIC1111
01
КАКВО Е STABLE DIFFUSION И FLUX

Stable Diffusion е open source модел за генерация на изображения от текст (text-to-image). Пускаш го на собствен компютър - без абонамент, без ограничения, без данните ти да минават през чужди сървъри.

Flux е новото поколение от Black Forest Labs (основателите на Stable Diffusion). По-добро следване на промпт, по-реалистични резултати, по-чист текст в изображенията.

ТЕКСТОВ ПРОМПТ
"a cyberpunk city at night, rain, neon signs"
TEXT ENCODER
CLIP / T5 конвертира текст в embeddings
DIFFUSION
UNet/DiT итеративно denoising на случаен noise
VAE DECODE
latent space → реален пиксел
ИЗОБРАЖЕНИЕ
PNG/JPEG резултат

Моделът не "знае" как изглежда нещо - той е научен кога шум прилича на конкретен образ. При генерация тръгва от чист шум и итеративно го "оформя" по посока на промпта.

За да разбереш параметрите - трябва да знаеш само толкова от горното: steps = колко итерации, CFG = колко строго следва промпта, sampler = алгоритъмът на denoising.
02
FLUX vs STABLE DIFFUSION
FLUX.1 DEV
Много по-добро следване на промпт
Реалистични ръце, текст в изображения
По-чиста архитектура (DiT Transformer)
Активна разработка, бързо развитие
Нов - по-малко LoRA/extension екосистема
По-голям модел (~24GB VRAM за full, 8-12GB за quantized)
Некомерсиален license (Dev варианта)
STABLE DIFFUSION XL
Огромна екосистема от LoRA, textual inversion
По-малко VRAM (6-8GB комфортно)
Хиляди готови workflow-и и extensions
Комерсиален - може да продаваш изхода
По-слабо следване на сложни промпти
Ръце, текст, малки детайли = проблеми
По-старата UNet архитектура
// ПРЕПОРЪКА 2026
Нов потребител без legacy LoRA: започни с Flux.1 Dev в ComfyUI. Ако имаш готови SDXL модели и LoRA: AUTOMATIC1111 + SDXL е по-лесният старт. За комерсиална употреба: SDXL или Flux Pro (cloud, платен).
03
МОДЕЛИ - КОЙ КОЙ Е

Модели = checkpoint файлове (.safetensors, .ckpt). Сваляш ги от HuggingFace или Civitai. Размерите варират от 2GB до 40GB+.

Flux.1 Dev
BLACK FOREST LABS · 2024
ПРЕПОРЪЧАН НЕКОМЕРСИАЛЕН
Пълният Flux модел. Отлично следване на промпт, реализъм, текст в изображенията. Нужен е отделен text encoder (T5-XXL) и VAE. Quantized Q8 версии са добри алтернативи за по-малко VRAM.
VRAM: 12-16GB (fp16) · 8-10GB (Q8 NF4)
Flux.1 Schnell
BLACK FOREST LABS · distilled
APACHE 2.0 БЪРЗ
Distilled версия - 4-8 steps вместо 20-28. Значително по-бърз. Леко по-слабо качество от Dev. Apache 2.0 лиценз - може да го ползваш комерсиално. Добър за итерации и тестване на промпти.
VRAM: 12GB (fp16) · 8GB (quantized)
Stable Diffusion XL (SDXL)
STABILITY AI · 2023
LEGACY СТАНДАРТ КОМЕРСИАЛЕН
1024x1024 native. Огромна LoRA екосистема. Refiner модел за финно довършване. Основата за хиляди fine-tuned модели в Civitai. Ако намираш конкретен стил само тук - причина да останеш.
VRAM: 6-8GB
SD 3.5 Large
STABILITY AI · 2024
SD ОТ НОВО ПОК.
Новото поколение SD с MMDiT архитектура (подобна на Flux). По-добро от SDXL, но Flux Dev го изпреварва в повечето benchmark-ове. Licensing условията са по-сложни. Следи развитието.
VRAM: 10-12GB
SDXL Turbo / LCM
STABILITY AI / Latent Consistency
DISTILLED 1-4 STEPS
Distilled за реалновременна генерация. 1-4 steps = секунди. Качеството е компромис. Добър за live preview при промпт разработка. Не за финален output.
VRAM: 6GB
SD 1.5
RunwayML / Stability AI · 2022
СТАР 512px native
Оригиналният open source модел. Остарял, но има специфични fine-tune модели (anime, illustration стилове), за които все още е актуален. Ако не те интересуват тези стилове - прескочи го.
VRAM: 4-6GB

Всички модели се свалят от huggingface.co или civitai.com. За Flux - задължително от официалното HuggingFace repo на black-forest-labs.

04
ХАРДУЕР - КАКВО ТИ ТРЯБВА
ХАРДУЕР FLUX.1 DEV SDXL SD 1.5 СКОРОСТ
NVIDIA RTX 4090 (24GB) fp16 full quality отлично отлично ~3-6 sec/img
NVIDIA RTX 3090/4080 (16-24GB) fp16 работи отлично отлично ~6-15 sec/img
NVIDIA RTX 3080/4070 (10-12GB) Q8 quantized добре отлично ~10-20 sec/img
NVIDIA RTX 3060/4060 (8GB) NF4 quantized с --medvram добре ~20-40 sec/img
NVIDIA GTX 1080/1060 (6-8GB) трудно бавно работи >60 sec/img
AMD RX 580/5700/6800 (ROCm) ROCm на Linux ROCm на Linux ROCm на Linux ~2-3x бавнo vs NVIDIA
Apple M2/M3/M4 (unified) MPS, добре MPS, добре MPS, добре ~10-30 sec/img
CPU only не е практично не е практично минути/img >5 min/img
AMD ROCm на Linux работи, но изисква ръчна конфигурация. RX 580 (gfx803) е официално извън поддръжката - може да работи с HSA_OVERRIDE_GFX_VERSION, но не е гарантирано. RX 6000/7000 серия работи значително по-добре.
Apple Silicon (M2+) е изненадващо добро за SD/Flux. Unified memory = моделът ползва RAM като VRAM. M2 Pro с 16GB е реална опция.
05
COMFYUI - ИНСТАЛАЦИЯ

ComfyUI е node-based workflow editor. Всяка операция е node - свързваш ги с жици. По-сложен за начало, но дава пълен контрол върху pipeline-а.

1

Изисквания

Python 3.10+ · Git · CUDA toolkit (NVIDIA) или ROCm (AMD) или Metal (Apple)

# Провери Python
python3 --version

# Провери CUDA (NVIDIA)
nvidia-smi

# Провери ROCm (AMD Linux)
rocm-smi
2

Clone и инсталация

# Clone
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI

# Virtual environment (препоръчително)
python3 -m venv venv
source venv/bin/activate

# Install dependencies - NVIDIA
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

# AMD ROCm (Linux)
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm5.6
pip install -r requirements.txt
3

Свали Flux модел

# Flux.1 Dev - нужен е HuggingFace акаунт и accept на license
# Свали от: https://huggingface.co/black-forest-labs/FLUX.1-dev

# flux1-dev.safetensors → models/unet/
# Или quantized версия (по-малко VRAM):
# flux1-dev-Q8_0.gguf → models/unet/

# Text Encoders (задължителни за Flux)
# clip_l.safetensors → models/clip/
# t5xxl_fp16.safetensors → models/clip/

# VAE
# ae.safetensors → models/vae/

# HuggingFace CLI download
pip install huggingface_hub
huggingface-cli download black-forest-labs/FLUX.1-dev flux1-dev.safetensors \
  --local-dir ./models/unet/
4

Пусни ComfyUI

Отваря се на http://127.0.0.1:8188

5

Зареди Flux workflow

В ComfyUI: Load → избери JSON workflow файл. Готови Flux workflows намираш в:

06
AUTOMATIC1111 - ЗА SDXL

По-лесен старт от ComfyUI. Традиционен UI, подходящ за SDXL. За Flux - по-ограничен.

При SDXL е нормално да генерираш с base модела, след това да пуснеш refiner за последните 20% от steps. Крайното качество се вижда.
07
ПРОМПТИНГ ЗА ИЗОБРАЖЕНИЯ

Промптингът за image generation е различен от LLM промптинг. По-дескриптивен, по-малко разговорен.

FLUX - ПРОМПТ СТИЛ
Разбира естествен език добре
Пълни изречения работят
Keyword soup по-малко нужен
Negative prompt почти не е нужен
Описваш какво искаш просто и директно
SDXL - ПРОМПТ СТИЛ
Keyword-ориентиран
Тегове разделени с запетаи
Ред и тегло имат значение
Negative prompt е задължителен
По-предвидим резултат при добри тегове
КЛЮЧОВИ ПАРАМЕТРИ
ПАРАМЕТЪР СТОЙНОСТИ ЕФЕКТ
Steps Flux: 20-28 · SDXL: 25-40 · Schnell: 4-8 Повече = по-детайлно, но diminishing returns след 30
CFG Scale Flux: 3.5-7 · SDXL: 7-12 По-ниско = креативно, по-високо = стриктно следва промпта
Sampler Euler a · DPM++ 2M · DDIM Euler a за разнообразие, DPM++ за консистентност
Resolution Flux: 1024x1024 · SDXL: 1024x1024 · SD: 512x512 Не сменяй аспектното съотношение драматично
Seed -1 (random) или фиксиран Фиксиран seed = репродуцируем резултат при същите настройки
Batch Size 1-4 (зависи от VRAM) Повече изображения наведнъж. Бързо изчерпва VRAM.
08
LORA - FINE-TUNING ЗА КОНКРЕТЕН СТИЛ

LoRA (Low-Rank Adaptation) е малък допълнителен файл, обучен върху специфичен стил, персонаж или обект. Зарежда се заедно с базовия модел и модифицира изхода.

// ОБУЧЕНИЕ НА СОБСТВЕН LORA

За да обучиш LoRA с твои изображения: 10-30 референтни снимки, подготвени с автоматичен captioning (kohya_ss или SimpleTuner). Обучение: ~30 min на RTX 3090. Резултат: .safetensors файл, зареждаш го като обикновен LoRA.

09
API И CLOUD АЛТЕРНАТИВИ

Нямаш GPU или искаш Flux Pro? Има cloud API опции.

PROVIDER МОДЕЛ ЦЕНА БЕЛЕЖКА
Replicate Flux.1 Pro/Dev/Schnell ~$0.055/img (Pro) Надежден, добра документация
fal.ai Flux Dev/Schnell/LoRA ~$0.025-0.05/img По-евтин, бърз, LoRA upload
Together AI Flux Schnell ~$0.01/img Евтин за bulk генерация
Stability AI API SD 3.5 / SDXL credits based За комерсиален license
10
ПРАКТИЧЕСКИ TIPS
За Flux на по-малко VRAM: GGUF quantized модели (Q8, Q5, Q4) са добри компромиси. Q8 е почти неразличимо от fp16. Q4 е забележима разлика, но работи на 6-8GB.
Flux не обича aspect ratios далеч от 1:1. 16:9 (1360x768) работи. 3:1 и по-широко - проблеми с композицията. При landscape фотографии: 3:2 (1536x1024).
ComfyUI Manager (custom node) е задължителен. Инсталира missing nodes автоматично при зареждане на workflow. Без него всеки workflow от интернет ще крещи за missing nodes.
Seed -1 = случаен, всеки път различен. При намерен добър резултат - запиши seed-а. Ще можеш да генерираш вариации с малко промени в промпта.
При Flux Dev - license забранява комерсиална употреба. Ако правиш продукт за продажба: Flux Pro (cloud, платен, комерсиален) или Flux Schnell (Apache 2.0, безплатен). Проверявай актуалния license преди production deployment.