DTGARAGE · AI · ЛОКАЛЕН AI

AI НА
ТВОЯ
ХАРДУЕР

Ollama пуска LLM модели локално — на твоя лаптоп, сървър или Raspberry Pi. Без интернет, без API ключове, без месечен абонамент, без privacy проблеми. Данните не напускат машината ти. Никога.

OLLAMA LINUX macOS БЕЗ CLOUD PYTHON · PHP · REST
01
ЗАЩО ЛОКАЛЕН AI
Кога Ollama има смисъл и кога не
CLOUD AI (ChatGPT, Claude.ai)ЛОКАЛЕН AI (Ollama)
Данните минават през сървъри на трети страни Данните остават на твоята машина
Месечен абонамент $20+ Безплатно след хардуера
Rate limits при heavy usage Без ограничения
Нужен интернет Работи офлайн
По-умни модели (GPT-4o, Claude Opus) Локалните модели са по-слаби
Бърз отговор (мощни datacenter GPU) По-бавен без добра GPU
Не можеш да кастомизираш Пълен контрол, fine-tuning
КОГА ДА ПОЛЗВАШ OLLAMA
Чувствителни данни (клиенти, лични файлове, вътрешна документация). Автоматизации с много извиквания — cloud цената расте, локалното е безплатно. Офлайн среди. Тестване и разработка на AI приложения без API разходи.
02
ИНСТАЛАЦИЯ
Linux, macOS — под минута
LINUX (DEBIAN / UBUNTU / ARCH) # Официален скрипт — инсталира и стартира service
curl -fsSL https://ollama.com/install.sh | sh

# Провери дали работи
systemctl status ollama
ollama --version
macOS # Homebrew
brew install ollama
ollama serve & # стартирай в background

# Или свали .app от ollama.com и пусни
EXPOSE НА МРЕЖАТА (за достъп от други машини) # По подразбиране слуша само на localhost:11434
# За да го достъпваш от LAN:

# systemd override
sudo systemctl edit ollama

# Добави:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

sudo systemctl daemon-reload
sudo systemctl restart ollama
СИГУРНОСТ ПРИ EXPOSE
Ако exposваш Ollama на мрежата — постави firewall rule. Ollama няма authentication по подразбиране. Всеки в LAN-а (или интернет ако exposваш навън) може да изпраща заявки. ufw allow from 192.168.0.0/24 to any port 11434
03
КОИ МОДЕЛИ ДА ТЕГЛИШ
Размерът определя RAM нуждите и качеството
ПРАВИЛОТО ЗА RAM
Модел 7B ≈ 4-5GB RAM при 4-bit квантизация. 13B ≈ 8GB. 32B ≈ 20GB. 70B ≈ 40GB. Ако нямаш достатъчно RAM — моделът се зарежда на диска (swap) и е бавен. По-малкият модел в RAM > по-голям модел на диска.
LLAMA 3.2
Meta · Препоръчан за старт
Размери1B, 3B, 11B, 90B
RAM (3B)~2GB
Инсталацияollama pull llama3.2
Добър заОбщо ползване, чат
MISTRAL
Mistral AI · Бърз и умен
Размери7B, 22B
RAM (7B)~4GB
Инсталацияollama pull mistral
Добър заАнализ, summarizing
PHI-4
Microsoft · Малък, мощен
Размери14B
RAM~8GB
Инсталацияollama pull phi4
Добър заReasoning, математика
GEMMA 3
Google · Multilingual
Размери1B, 4B, 12B, 27B
RAM (4B)~3GB
Инсталацияollama pull gemma3
Добър заМногоезичен текст
CODELLAMA
Meta · Само за код
Размери7B, 13B, 34B
RAM (7B)~4GB
Инсталацияollama pull codellama
Добър заBash, Python, PHP код
DEEPSEEK-R1
DeepSeek · Reasoning
Размери7B, 14B, 32B, 70B
RAM (7B)~5GB
Инсталацияollama pull deepseek-r1
Добър заЛогика, анализ, код
ПРЕПОРЪКА ЗА СТАРТ
Започни с llama3.2:3b — бърз, ~2GB RAM, за всичко ежедневно. Имаш 16GB+ RAM? Пробвай mistral:7b или llama3.2:11b. 62GB RAM (сървър)? llama3.2:90b или deepseek-r1:32b без проблем.
04
CLI — ОСНОВНИ КОМАНДИ
Всичко от терминала
ОСНОВНИ КОМАНДИ # Изтегли модел
ollama pull llama3.2
ollama pull llama3.2:11b # конкретна версия

# Интерактивен чат
ollama run llama3.2

# Едно питане от терминала
echo "Обясни как работи TCP/IP" | ollama run llama3.2

# Списък изтеглени модели
ollama list

# Изтрий модел
ollama rm llama3.2

# Информация за модел
ollama show llama3.2

# Текущо работещи модели
ollama ps

# Копирай модел под ново име (за customization)
ollama cp llama3.2 moj-asistent
PIPE — АНАЛИЗИРАЙ ФАЙЛОВЕ И ЛОГОВЕ # Анализирай лог файл
cat /var/log/nginx/error.log | ollama run llama3.2 "Намери грешките и обясни"

# Обясни bash скрипт
cat backup.sh | ollama run codellama "Обясни какво прави скриптът"

# Преведи документ
cat readme_en.txt | ollama run llama3.2 "Преведи на BG"

# Обобщи дълъг файл
cat document.txt | ollama run mistral "Обобщи в 5 bullet points"
MODELFILE — КАСТОМЕН АСИСТЕНТ # Създай Modelfile
cat > Modelfile <<EOF
FROM llama3.2

SYSTEM """
Ти си технически асистент за DTGaraGe форум.
Специализираш в: Linux, автомобили, заваряване, AI.
Отговаряй на БГ. Бъди директен и практичен.
"""

PARAMETER temperature 0.7
PARAMETER num_ctx 4096
EOF

# Създай модела
ollama create dtgarage-bot -f Modelfile

# Пусни го
ollama run dtgarage-bot
05
REST API
Ollama слуша на localhost:11434 — HTTP заявки като OpenAI
CURL — GENERATE ENDPOINT curl http://localhost:11434/api/generate \
  -d '{"model":"llama3.2","prompt":"Как да настроя nginx?","stream":false}'
CURL — CHAT ENDPOINT (OpenAI-съвместим) curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [
      {"role":"system","content":"Отговаряй на БГ."},
      {"role":"user","content":"Какво е Docker?"}
    ]
  }'
OPENAI-СЪВМЕСТИМ API
Ollama поддържа /v1/chat/completions endpoint в OpenAI формат. Това означава, че можеш да използваш всяка библиотека или код, написан за OpenAI, само като смениш base URL на http://localhost:11434 и модела на локален. Нулева промяна в логиката.
06
PYTHON
Ollama SDK или OpenAI SDK — и двата работят
ИНСТАЛАЦИЯ pip install ollama
# или OpenAI SDK (за v1/ endpoint)
pip install openai
OLLAMA SDK — ПРОСТ ЧАТ import ollama

response = ollama.chat(
  model='llama3.2',
  messages=[
    {'role': 'system', 'content': 'Отговаряй на БГ.'},
    {'role': 'user', 'content': 'Обясни RAID 1 с прости думи.'},
  ]
)
print(response['message']['content'])
OLLAMA SDK — STREAMING import ollama

for chunk in ollama.chat(
  model='llama3.2',
  messages=[{'role': 'user', 'content': 'Напиши bash скрипт за backup.'}],
  stream=True,
):
  print(chunk['message']['content'], end='', flush=True)
OPENAI SDK КЪМ OLLAMA (drop-in замяна) from openai import OpenAI

# Само base_url се сменя — останалото е идентично с OpenAI
client = OpenAI(
  base_url='http://localhost:11434/v1',
  api_key='ollama', # задължителен параметър, стойността няма значение
)

response = client.chat.completions.create(
  model='mistral',
  messages=[{'role': 'user', 'content': 'Как работи MIG заваряване?'}]
)
print(response.choices[0].message.content)
07
PHP
За уебсайтове — cURL към локалния Ollama
OLLAMA PHP ФУНКЦИЯ <?php
function ollama_ask(string $prompt, string $model = 'llama3.2'): string {
  $payload = json_encode([
    'model' => $model,
    'prompt' => $prompt,
    'stream' => false,
  ]);

  $ch = curl_init('http://localhost:11434/api/generate');
  curl_setopt_array($ch, [
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_POST => true,
    CURLOPT_POSTFIELDS => $payload,
    CURLOPT_HTTPHEADER => ['Content-Type: application/json'],
    CURLOPT_TIMEOUT => 120,
  ]);

  $result = json_decode(curl_exec($ch), true);
  curl_close($ch);
  return $result['response'] ?? 'Грешка.';
}

// Употреба
echo ollama_ask('Какво е Docker Compose?');
ТАЙМАУТ
Локалните модели са по-бавни от cloud API. Постави CURLOPT_TIMEOUT на поне 120 секунди. При CPU-only изпълнение на голям модел — може да са нужни и 3-5 минути за дълъг отговор.
08
ХАРДУЕР
Какво имаш = какво можеш да пуснеш
NVIDIA GPU
CUDA поддръжка — Ollama го ползва автоматично.

8GB VRAM → до 7B модели в GPU
16GB VRAM → до 13B
24GB+ VRAM → до 34B

Най-бърз вариант.
AMD GPU
ROCm поддръжка — работи, но изисква настройка.

RX 580 8GB → малки модели (3B-7B)
RX 6800 XT 16GB → до 13B

OLLAMA_GPU_DRIVER=rocm

По-бавно от NVIDIA при равен VRAM.
CPU ONLY
Работи, но бавно.

16GB RAM → 7B модели
32GB RAM → 13B
62GB RAM → до 32B удобно

Xeon E5 с 62GB ECC RAM → mistral:7b или deepseek-r1:14b без проблем.
AMD ROCm SETUP (RX 580 и подобни) # Инсталирай ROCm
sudo apt install rocm-hip-runtime

# Добави потребителя в render групата
sudo usermod -aG render,video $USER

# Стартирай Ollama с ROCm
HSA_OVERRIDE_GFX_VERSION=10.3.0 OLLAMA_GPU_DRIVER=rocm ollama serve

# Провери дали GPU се разпознава
ollama ps # след pull и run на модел — трябва да пише GPU
09
СЪВЕТИ ЗА ОПТИМИЗАЦИЯ
Как да извлечеш максимума от хардуера
ПОЛЕЗНИ ENV ПРОМЕНЛИВИ # Брой паралелни заявки (default: 1)
OLLAMA_NUM_PARALLEL=4

# Колко модела да стоят заредени в RAM
OLLAMA_MAX_LOADED_MODELS=2

# Колко да чака преди да изхвърли модела от RAM (default: 5m)
OLLAMA_KEEP_ALIVE=10m

# Debug logging
OLLAMA_DEBUG=1

# Задай в /etc/systemd/system/ollama.service.d/override.conf
ПАРАМЕТЪР В MODELFILEЕФЕКТПРЕПОРЪКА
PARAMETER temperature 0.1По-детерминистичен отговорКод, факти
PARAMETER temperature 0.8По-творчески отговорПисане, идеи
PARAMETER num_ctx 4096Контекст прозорецПовече = повече RAM
PARAMETER num_predict 512Максимална дължина отговорОграничи за скорост
PARAMETER top_k 40Token samplingDefault е добър
OPEN WEBUI — GRAPHICAL INTERFACE
Искаш ChatGPT-like интерфейс за Ollama? Open WebUI е самохостван и безплатен:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

После отвори http://localhost:3000. Свързва се с Ollama автоматично.