Trendy Redakce Poptej.IT 16. 5. 2026 11 min čtení
AI self-hosted AI LLM Llama ML infrastructure

Pro─Ź velk├ę firmy opou┼ít─Ťj├ş ChatGPT API a stav├ş si vlastn├ş AI

Pra┼żsk├í banka (anonymizov├íno, 120 mld. K─Ź aktiv) platila v roce 2024 OpenAI 1,5 mil. K─Ź m─Ťs├ş─Źn─Ť za intern├ş AI asistenta ÔÇö na 800 zam─Ťstnanc┼», 12 tis├şc dotaz┼» denn─Ť. V Q3 2025 p┼Öe┼íli na self-hosted Llama 3.3 70B na vlastn├şch GPU serverech.

V├Żsledek po 6 m─Ťs├şc├şch:

  • M─Ťs├ş─Źn├ş n├íklad: 180 000 K─Ź (Ôćô 88 %)
  • Latence: -40 % (lok├íln├ş provoz)
  • Data suverenita: 100 % in-house
  • Custom fine-tuning na intern├ş data: ANO (d┼Ö├şve nemo┼żn├ę)
  • Ro─Źn├ş ├║spora: ~18 mil. K─Ź

A nejsou sami. Trend AI repatriace roste v enterprise segmentu. D┼»vod je kombinace ekonomiky, compliance a data sovereignty. Tento ─Źl├ínek vysv─Ťtluje, kdy m├í tento krok smysl a kolik re├íln─Ť stoj├ş.

Pro─Ź firmy odch├ízej├ş od managed AI API

1. N├íklady se zlom├ş p┼Öi ur─Źit├ęm objemu

Pay-per-token model OpenAI, Anthropic a Google je skv─Ťl├Ż pro pilotn├ş projekty a variabiln├ş load. Ale p┼Öi vysok├ęm, stabiln├şm objemu se self-hosted zlom├ş.

Break-even anal├Żza (2026):

M─Ťs├ş─Źn├ş objem OpenAI cost Self-host cost Kdy preferovat self-host
< 50 M tokens ~35 000 K─Ź ~180 000 K─Ź Nikdy (OpenAI)
500 M tokens ~350 000 K─Ź ~220 000 K─Ź Hrani─Źn├ş
5 B tokens ~3,5 mil. K─Ź ~380 000 K─Ź Jasn─Ť self-host
50 B tokens ~35 mil. K─Ź ~800 000 K─Ź Definitivn─Ť self-host

Pozor, kalkulace je zjednodu┼íen├í ÔÇö self-host m├í fixed costs (HW, lid├ę), OpenAI je variable. Ale trend je jasn├Ż.

2. Compliance a data sovereignty

Regulovan├ę odv─Ťtv├ş (banky, poji┼í┼ąovny, zdravotnictv├ş) maj├ş probl├ęm s t├şm, ┼że data opou┼ít─Ťj├ş jejich infrastrukturu. ChatGPT Enterprise a Claude for Work slibuj├ş, ┼że data nepou┼ż├şvaj├ş k tr├ęninku, ale:

  • Physical location dat (servery v USA / Irsku)
  • Jurisdikce (US CLOUD Act, UK Investigatory Powers Act)
  • NIS2 compliance (samostatn├Ż ─Źl├ínek)
  • Sectorov├ę regulace (─îNB, DORA)

Self-hosted model b─Ť┼ż├ş ve va┼íem datacentru. Data neopust├ş hranice. Compliance story je mnohem jednodu┼í┼í├ş.

3. Vendor risk

OpenAI je jedin├Ż dodavatel pro v┼íechny sv├ę modely. Jeden v├Żpadek, jeden policy change, jedno nav├Ż┼íen├ş cen ÔÇö v┼íichni klienti zasa┼żeni. Open-source modely jsou nez├ívisl├ę na jednom vendorovi. M┼»┼żete p┼Öej├şt na jin├Ż, self-host nebo zp─Ťt.

4. Customizace

Fine-tuning na intern├şch datech je s open-source modely mnohem p┼Ö├şmo─Źa┼Öej┼í├ş. OpenAI nab├şz├ş fine-tuning, ale:

  • Omezen├ę na vybran├ę modely
  • Va┼íe data teoreticky neopust├ş OpenAI, ale prakticky jsou tam
  • Z├ívislost na jejich infrastruktu┼Öe

Self-host: vlastn├ş LoRA adapt├ęry, vlastn├ş embeddings, vlastn├ş RAG. Pln├í kontrola.

5. Specializovan├ę use cases

Code generation, intern├ş Q&A, translation, summarization ÔÇö pro tyto ├║koly jsou dob┼Öe vylad─Ťn├ę open-source modely srovnateln├ę s GPT-4 t┼Ö├şdou. A p┼Öi objemu jsou dramaticky levn─Ťj┼í├ş.

Kdy má self-host SMYSL (a kdy ne)

ANO

  • Stabiln├ş, vysok├Ż token volume (> 1 B m─Ťs├ş─Źn─Ť)
  • Regulovan├ę odv─Ťtv├ş s compliance po┼żadavky
  • Pot┼Öeba fine-tuningu na proprietary datech
  • Citliv├í data, kter├í nesm├ş opustit firmu
  • Dlouhodob├í strategie AI as core capability

NE

  • Experiment├íln├ş / pilotn├ş f├íze
  • Variabiln├ş, low-volume use case
  • Pot┼Öebujete nejnov─Ťj┼í├ş frontier capabilities (o3, Claude Opus)
  • Nem├íte intern├ş ML / MLOps kapacitu
  • Va┼íe AI je nekritick├í dopl┼łkov├í funkce

Co vlastn─Ť znamen├í ÔÇ×vlastn├ş AIÔÇť

Existuje spektrum ┼Öe┼íen├ş:

1. Managed API (OpenAI, Anthropic, Google)

  • Pro: nejrychlej┼í├ş start, nejvy┼í┼í├ş kvalita
  • Proti: vendor lock-in, data leaves premises, cena p┼Öi objemu

2. Cloud-hosted open-source (Bedrock, Azure AI, Vertex)

  • AWS Bedrock ÔÇö Llama, Claude, Mistral
  • Azure AI ÔÇö OpenAI + Mistral + Llama
  • Sn├ş┼żen├ę data privacy concerns vs. p┼Ö├şm├ę API, ale st├íle cloud

3. Managed on-premise (Hugging Face, Anyscale)

  • Provozov├ín├ş model┼» v vlastn├şm cloud accountu s managed vrstvou
  • Hybrid mezi cloud-flexibility a data-control

4. Pure self-hosted (GPU servery, on-prem)

  • NVIDIA H100 / A100 v datacentru
  • Pln├í kontrola, nejni┼ż┼í├ş variable cost, nejvy┼í┼í├ş fixed cost
  • Vy┼żaduje ML ops kapacitu

5. Edge AI

  • Men┼í├ş modely (3BÔÇô8B parametr┼») na lok├íln├şch za┼Ö├şzen├şch
  • Pro specifick├ę use cases (retail, v├Żroba)
  • Minim├íln├ş latence, offline provoz

Ekonomika self-hostu

Hardware options (2026)

Setup Cena HW Monthly cloud equivalent Throughput (tokens/s)
2├Ś RTX 4090 (consumer) 130 000 K─Ź ~50 000 K─Ź ~300
1├Ś H100 80GB 1,2 mil. K─Ź ~280 000 K─Ź ~1 500
2├Ś H100 SXM 3 mil. K─Ź ~650 000 K─Ź ~4 000
8├Ś H200 (enterprise) 12 mil. K─Ź ~2 mil. K─Ź ~20 000

Pro banking use case (800 users, 12k queries/day) byl dostatek 1├Ś H100. HW za 1,2 mil. K─Ź + ML engineer 180k/m─Ťs├şc = ROI 8 m─Ťs├şc┼» p┼Öi 1,5 mil. K─Ź p┼»vodn├ş cost.

Opera─Źn├ş n├íklady

  • Elekt┼Öina: H100 ┼żere ~700W pod z├ít─Ť┼ż├ş, ~70 kWh/den = 500 K─Ź/den
  • Cooling: +40 % spot┼Öeby
  • MLOps engineer: 150 000 ÔÇô 250 000 K─Ź/m─Ťs├şc
  • Monitoring, maintenance: 10 % HW hodnoty ro─Źn─Ť

TCO 3 roky pro mid-size setup (2├Ś H100)

Polo┼żka Rok 1 Rok 2 Rok 3 Celkem
HW investice 3 000 000 K─Ź 0 0 3 000 000 K─Ź
Elekt┼Öina 400 000 K─Ź 420 000 K─Ź 440 000 K─Ź 1 260 000 K─Ź
MLOps 2 400 000 K─Ź 2 520 000 K─Ź 2 640 000 K─Ź 7 560 000 K─Ź
Maintenance 300 000 K─Ź 315 000 K─Ź 330 000 K─Ź 945 000 K─Ź
Celkem 6 100 000 K─Ź 3 255 000 K─Ź 3 410 000 K─Ź 12 765 000 K─Ź

Ekvivalent managed API: ~650 000 K─Ź ├Ś 36 m─Ťs├şc┼» = 23,4 mil. K─Ź.

├Üspora za 3 roky: ~10,6 mil. K─Ź (ale vy┼żaduje dostate─Źn├Ż sustained volume).

Open-source modely 2026: co re├íln─Ť pou┼ż├şvat

General purpose

  • Llama 3.3 70B ÔÇö nejlep┼í├ş ratio size/capability
  • Qwen 2.5 72B ÔÇö siln├Ż v reasoning
  • Mistral Large 2 ÔÇö evropsk├Ż, v├Żborn├í ─Źe┼ítina

Code generation

  • DeepSeek Coder V3
  • Qwen 2.5 Coder
  • Codestral

Vision / Multimodal

  • Llama 3.2 Vision
  • Qwen VL

Small / Edge

  • Llama 3.2 3B ÔÇö mobile / embedded
  • Phi-4 ÔÇö kompaktn├ş Microsoft model

Čeština

Nejlep┼í├ş ─Źeskou v├Żkonnost maj├ş Mistral, Llama 3.3 a Qwen 2.5. V─Ťt┼íina zvl├íd├í rodilou kvalitu v ─Źe┼ítin─Ť, ale doporu─Źujeme testovat na vlastn├şm use case.

Hybridn├ş strategie: nejlep┼í├ş obou sv─Ťt┼»

V─Ťt┼íina zral├Żch AI deployments nepou┼ż├şv├í jen jeden p┼Ö├şstup:

- Nekritick├ę, variabiln├ş Ôćĺ OpenAI / Claude API
- Citliv├í data Ôćĺ Azure OpenAI (EU region) nebo on-prem
- High-volume, stable Ôćĺ Self-hosted Llama
- Specializovan├ę ├║koly Ôćĺ Fine-tuned custom model
- Edge use cases Ôćĺ Small models lok├íln─Ť

Router layer rozhoduje, kter├Ż model odpov├ş na kter├Ż dotaz. Optimalizuje cost i kvalitu.

Case study: poji┼í┼ąovna repatriace

St┼Öedn─Ť velk├í ─Źesk├í poji┼í┼ąovna (anonymizov├íno, 2,8 mld. K─Ź premium) provedla v 2025 AI repatriaci:

Use cases:

  • Automatick├ę zpracov├ín├ş ┼íkodn├şch ud├ílost├ş (documents)
  • Intern├ş Q&A asistent (intern├ş znalostn├ş b├íze)
  • Code assistant pro v├Żvoj├í┼Öe

Před:

  • Azure OpenAI: ~820 000 K─Ź/m─Ťs├şc
  • Obavy z compliance (DORA, NIS2)
  • Rostouc├ş n├íklady s adopc├ş

Po:

  • On-prem setup: 4├Ś H100 (5,8 mil. K─Ź HW)
  • Llama 3.3 70B fine-tuned na intern├ş data
  • MLOps team 2 FTE (380 000 K─Ź/m─Ťs├şc)
  • Monthly cost ~500 000 K─Ź v─Źetn─Ť power, cooling, maintenance

V├Żsledek:

  • Monthly cost: 820k Ôćĺ 500k (-39 %)
  • Latence pro intern├ş users: -55 %
  • Data sovereignty: Ôťů
  • Fine-tuned quality na specific tasks: +18 % accuracy oproti baseline Llama
  • ROI na HW: 18 m─Ťs├şc┼»

FAQ: Self-hosted AI

Pot┼Öebujeme vlastn├ş datacentrum? Ne nutn─Ť. M┼»┼żete m├şt colocation v profesion├íln├şm datacentru (CE Colo, Master DC, TTC Teleport) s GPU serverem. Full rack├í kapacita pro GPU stoj├ş 18 000 ÔÇô 35 000 K─Ź/m─Ťs├şc.

Kolik lid├ş pot┼Öebujeme? Minimum 2 FTE: ML / MLOps engineer + DevOps / SRE. Pro mal├ę setupy m┼»┼że b├Żt 1 fractional + extern├ş konzultant.

Kde sehnat H100 / H200? 2026 je dostupnost lep┼í├ş ne┼ż 2024ÔÇô2025, ale po┼Ö├íd ─Źekac├ş doby 8ÔÇô16 t├Żdn┼». NVIDIA partner channel (Atea, DNS, Gigabyte distributors).

Co pokud pot┼Öebujeme GPT-4 kvalitu ve specific tasks? Pro nejn├íro─Źn─Ťj┼í├ş tasks pou┼ż├şvejte hybrid: 90 % p┼Öes self-host, 10 % p┼Öes premium API. Router rozhodne.

Jak to souvis├ş s AI Act? AI Act (samostatn├Ż ─Źl├ínek) se nestaral o to, kde model b─Ť┼ż├ş ÔÇö ale pokud jste provider nebo deployer high-risk syst├ęmu, self-hosted nasazen├ş v├ím d├ív├í v─Ťt┼í├ş kontrolu nad data governance, logging a transparency, kter├ę AI Act vy┼żaduje.


Zva┼żujete self-hosted AI nebo hybridn├ş strategii?

Na Poptej.IT zad├íte popt├ívku na AI strategy consulting, MLOps implementaci nebo fine-tuning projektu. Ov─Ť┼Öen├ş AI specialist├ę z ─îR, anonymn├ş sout─Ť┼ż, feedback ranking. Prvn├şch 5 zak├ízek bez provize. Dostanete 5ÔÇô12 nab├şdek b─Ťhem 72 hodin.

Zadat popt├ívku na AI projekt Ôćĺ


Potřebujete IT projekt?

Zavolejte nám: +420 733 323 840 nebo zadejte poptávku online.

Zjistit více