Flux / Stable Diffusion от нулата

КАКВО Е STABLE DIFFUSION И FLUX

Stable Diffusion е open source модел за генерация на изображения от текст (text-to-image). Пускаш го на собствен компютър - без абонамент, без ограничения, без данните ти да минават през чужди сървъри.

Flux е новото поколение от Black Forest Labs (основателите на Stable Diffusion). По-добро следване на промпт, по-реалистични резултати, по-чист текст в изображенията.

ТЕКСТОВ ПРОМПТ

"a cyberpunk city at night, rain, neon signs"

TEXT ENCODER

CLIP / T5 конвертира текст в embeddings

DIFFUSION

UNet/DiT итеративно denoising на случаен noise

VAE DECODE

latent space → реален пиксел

ИЗОБРАЖЕНИЕ

PNG/JPEG резултат

Моделът не "знае" как изглежда нещо - той е научен кога шум прилича на конкретен образ. При генерация тръгва от чист шум и итеративно го "оформя" по посока на промпта.

За да разбереш параметрите - трябва да знаеш само толкова от горното: steps = колко итерации, CFG = колко строго следва промпта, sampler = алгоритъмът на denoising.

FLUX vs STABLE DIFFUSION

FLUX.1 DEV

Много по-добро следване на промпт

Реалистични ръце, текст в изображения

По-чиста архитектура (DiT Transformer)

Активна разработка, бързо развитие

Нов - по-малко LoRA/extension екосистема

По-голям модел (~24GB VRAM за full, 8-12GB за quantized)

Некомерсиален license (Dev варианта)

STABLE DIFFUSION XL

Огромна екосистема от LoRA, textual inversion

По-малко VRAM (6-8GB комфортно)

Хиляди готови workflow-и и extensions

Комерсиален - може да продаваш изхода

По-слабо следване на сложни промпти

Ръце, текст, малки детайли = проблеми

По-старата UNet архитектура

// ПРЕПОРЪКА 2026

Нов потребител без legacy LoRA: започни с Flux.1 Dev в ComfyUI. Ако имаш готови SDXL модели и LoRA: AUTOMATIC1111 + SDXL е по-лесният старт. За комерсиална употреба: SDXL или Flux Pro (cloud, платен).

МОДЕЛИ - КОЙ КОЙ Е

Модели = checkpoint файлове (.safetensors, .ckpt). Сваляш ги от HuggingFace или Civitai. Размерите варират от 2GB до 40GB+.

Flux.1 Dev

BLACK FOREST LABS · 2024

ПРЕПОРЪЧАН НЕКОМЕРСИАЛЕН

Пълният Flux модел. Отлично следване на промпт, реализъм, текст в изображенията. Нужен е отделен text encoder (T5-XXL) и VAE. Quantized Q8 версии са добри алтернативи за по-малко VRAM.

VRAM: 12-16GB (fp16) · 8-10GB (Q8 NF4)

Flux.1 Schnell

BLACK FOREST LABS · distilled

APACHE 2.0 БЪРЗ

Distilled версия - 4-8 steps вместо 20-28. Значително по-бърз. Леко по-слабо качество от Dev. Apache 2.0 лиценз - може да го ползваш комерсиално. Добър за итерации и тестване на промпти.

VRAM: 12GB (fp16) · 8GB (quantized)

Stable Diffusion XL (SDXL)

STABILITY AI · 2023

LEGACY СТАНДАРТ КОМЕРСИАЛЕН

1024x1024 native. Огромна LoRA екосистема. Refiner модел за финно довършване. Основата за хиляди fine-tuned модели в Civitai. Ако намираш конкретен стил само тук - причина да останеш.

VRAM: 6-8GB

SD 3.5 Large

STABILITY AI · 2024

SD ОТ НОВО ПОК.

Новото поколение SD с MMDiT архитектура (подобна на Flux). По-добро от SDXL, но Flux Dev го изпреварва в повечето benchmark-ове. Licensing условията са по-сложни. Следи развитието.

VRAM: 10-12GB

SDXL Turbo / LCM

STABILITY AI / Latent Consistency

DISTILLED 1-4 STEPS

Distilled за реалновременна генерация. 1-4 steps = секунди. Качеството е компромис. Добър за live preview при промпт разработка. Не за финален output.

VRAM: 6GB

SD 1.5

RunwayML / Stability AI · 2022

СТАР 512px native

Оригиналният open source модел. Остарял, но има специфични fine-tune модели (anime, illustration стилове), за които все още е актуален. Ако не те интересуват тези стилове - прескочи го.

VRAM: 4-6GB

Всички модели се свалят от huggingface.co или civitai.com. За Flux - задължително от официалното HuggingFace repo на black-forest-labs.

ХАРДУЕР - КАКВО ТИ ТРЯБВА

ХАРДУЕР	FLUX.1 DEV	SDXL	SD 1.5	СКОРОСТ
NVIDIA RTX 4090 (24GB)	fp16 full quality	отлично	отлично	~3-6 sec/img
NVIDIA RTX 3090/4080 (16-24GB)	fp16 работи	отлично	отлично	~6-15 sec/img
NVIDIA RTX 3080/4070 (10-12GB)	Q8 quantized	добре	отлично	~10-20 sec/img
NVIDIA RTX 3060/4060 (8GB)	NF4 quantized	с --medvram	добре	~20-40 sec/img
NVIDIA GTX 1080/1060 (6-8GB)	трудно	бавно	работи	>60 sec/img
AMD RX 580/5700/6800 (ROCm)	ROCm на Linux	ROCm на Linux	ROCm на Linux	~2-3x бавнo vs NVIDIA
Apple M2/M3/M4 (unified)	MPS, добре	MPS, добре	MPS, добре	~10-30 sec/img
CPU only	не е практично	не е практично	минути/img	>5 min/img

AMD ROCm на Linux работи, но изисква ръчна конфигурация. RX 580 (gfx803) е официално извън поддръжката - може да работи с HSA_OVERRIDE_GFX_VERSION, но не е гарантирано. RX 6000/7000 серия работи значително по-добре.

Apple Silicon (M2+) е изненадващо добро за SD/Flux. Unified memory = моделът ползва RAM като VRAM. M2 Pro с 16GB е реална опция.

COMFYUI - ИНСТАЛАЦИЯ

ComfyUI е node-based workflow editor. Всяка операция е node - свързваш ги с жици. По-сложен за начало, но дава пълен контрол върху pipeline-а.

Изисквания

Python 3.10+ · Git · CUDA toolkit (NVIDIA) или ROCm (AMD) или Metal (Apple)

# Провери Python
python3 --version

# Провери CUDA (NVIDIA)
nvidia-smi

# Провери ROCm (AMD Linux)
rocm-smi

Clone и инсталация

# Clone
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI

# Virtual environment (препоръчително)
python3 -m venv venv
source venv/bin/activate

# Install dependencies - NVIDIA
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

# AMD ROCm (Linux)
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm5.6
pip install -r requirements.txt

Свали Flux модел

# Flux.1 Dev - нужен е HuggingFace акаунт и accept на license
# Свали от: https://huggingface.co/black-forest-labs/FLUX.1-dev

# flux1-dev.safetensors → models/unet/
# Или quantized версия (по-малко VRAM):
# flux1-dev-Q8_0.gguf → models/unet/

# Text Encoders (задължителни за Flux)
# clip_l.safetensors → models/clip/
# t5xxl_fp16.safetensors → models/clip/

# VAE
# ae.safetensors → models/vae/

# HuggingFace CLI download
pip install huggingface_hub
huggingface-cli download black-forest-labs/FLUX.1-dev flux1-dev.safetensors \
  --local-dir ./models/unet/

Пусни ComfyUI

Отваря се на http://127.0.0.1:8188

Зареди Flux workflow

В ComfyUI: Load → избери JSON workflow файл. Готови Flux workflows намираш в:

AUTOMATIC1111 - ЗА SDXL

По-лесен старт от ComfyUI. Традиционен UI, подходящ за SDXL. За Flux - по-ограничен.

При SDXL е нормално да генерираш с base модела, след това да пуснеш refiner за последните 20% от steps. Крайното качество се вижда.

ПРОМПТИНГ ЗА ИЗОБРАЖЕНИЯ

Промптингът за image generation е различен от LLM промптинг. По-дескриптивен, по-малко разговорен.

FLUX - ПРОМПТ СТИЛ

Разбира естествен език добре

Пълни изречения работят

Keyword soup по-малко нужен

Negative prompt почти не е нужен

Описваш какво искаш просто и директно

SDXL - ПРОМПТ СТИЛ

Keyword-ориентиран

Тегове разделени с запетаи

Ред и тегло имат значение

Negative prompt е задължителен

По-предвидим резултат при добри тегове

КЛЮЧОВИ ПАРАМЕТРИ

ПАРАМЕТЪР	СТОЙНОСТИ	ЕФЕКТ
Steps	Flux: 20-28 · SDXL: 25-40 · Schnell: 4-8	Повече = по-детайлно, но diminishing returns след 30
CFG Scale	Flux: 3.5-7 · SDXL: 7-12	По-ниско = креативно, по-високо = стриктно следва промпта
Sampler	Euler a · DPM++ 2M · DDIM	Euler a за разнообразие, DPM++ за консистентност
Resolution	Flux: 1024x1024 · SDXL: 1024x1024 · SD: 512x512	Не сменяй аспектното съотношение драматично
Seed	-1 (random) или фиксиран	Фиксиран seed = репродуцируем резултат при същите настройки
Batch Size	1-4 (зависи от VRAM)	Повече изображения наведнъж. Бързо изчерпва VRAM.

LORA - FINE-TUNING ЗА КОНКРЕТЕН СТИЛ

LoRA (Low-Rank Adaptation) е малък допълнителен файл, обучен върху специфичен стил, персонаж или обект. Зарежда се заедно с базовия модел и модифицира изхода.

// ОБУЧЕНИЕ НА СОБСТВЕН LORA

За да обучиш LoRA с твои изображения: 10-30 референтни снимки, подготвени с автоматичен captioning (kohya_ss или SimpleTuner). Обучение: ~30 min на RTX 3090. Резултат: .safetensors файл, зареждаш го като обикновен LoRA.

API И CLOUD АЛТЕРНАТИВИ

Нямаш GPU или искаш Flux Pro? Има cloud API опции.

PROVIDER	МОДЕЛ	ЦЕНА	БЕЛЕЖКА
Replicate	Flux.1 Pro/Dev/Schnell	~$0.055/img (Pro)	Надежден, добра документация
fal.ai	Flux Dev/Schnell/LoRA	~$0.025-0.05/img	По-евтин, бърз, LoRA upload
Together AI	Flux Schnell	~$0.01/img	Евтин за bulk генерация
Stability AI API	SD 3.5 / SDXL	credits based	За комерсиален license

ПРАКТИЧЕСКИ TIPS

За Flux на по-малко VRAM: GGUF quantized модели (Q8, Q5, Q4) са добри компромиси. Q8 е почти неразличимо от fp16. Q4 е забележима разлика, но работи на 6-8GB.

Flux не обича aspect ratios далеч от 1:1. 16:9 (1360x768) работи. 3:1 и по-широко - проблеми с композицията. При landscape фотографии: 3:2 (1536x1024).

ComfyUI Manager (custom node) е задължителен. Инсталира missing nodes автоматично при зареждане на workflow. Без него всеки workflow от интернет ще крещи за missing nodes.

Seed -1 = случаен, всеки път различен. При намерен добър резултат - запиши seed-а. Ще можеш да генерираш вариации с малко промени в промпта.

При Flux Dev - license забранява комерсиална употреба. Ако правиш продукт за продажба: Flux Pro (cloud, платен, комерсиален) или Flux Schnell (Apache 2.0, безплатен). Проверявай актуалния license преди production deployment.

FLUX / STABLE DIFFUSION

ОТ НУЛАТА

Изисквания

Clone и инсталация

Свали Flux модел

Пусни ComfyUI

Зареди Flux workflow