Trendy Redakce Poptej.IT 16. 5. 2026 11 min čtení

AI self-hosted AI LLM Llama ML infrastructure

Pro─Ź velk├ę firmy opou┼ít─Ťj├ş ChatGPT API a stav├ş si vlastn├ş AI

Pra┼żsk├í banka (anonymizov├íno, 120 mld. K─Ź aktiv) platila v roce 2024 OpenAI 1,5 mil. K─Ź m─Ťs├ş─Źn─Ť za intern├ş AI asistenta ÔÇö na 800 zam─Ťstnanc┼», 12 tis├şc dotaz┼» denn─Ť. V Q3 2025 p┼Öe┼íli na self-hosted Llama 3.3 70B na vlastn├şch GPU serverech.

V├Żsledek po 6 m─Ťs├şc├şch:

M─Ťs├ş─Źn├ş n├íklad: 180 000 K─Ź (Ôćô 88 %)
Latence: -40 % (lok├íln├ş provoz)
Data suverenita: 100 % in-house
Custom fine-tuning na intern├ş data: ANO (d┼Ö├şve nemo┼żn├ę)
Ro─Źn├ş ├║spora: ~18 mil. K─Ź

A nejsou sami. Trend AI repatriace roste v enterprise segmentu. D┼»vod je kombinace ekonomiky, compliance a data sovereignty. Tento ─Źl├ínek vysv─Ťtluje, kdy m├í tento krok smysl a kolik re├íln─Ť stoj├ş.

Pro─Ź firmy odch├ízej├ş od managed AI API

1. N├íklady se zlom├ş p┼Öi ur─Źit├ęm objemu

Pay-per-token model OpenAI, Anthropic a Google je skv─Ťl├Ż pro pilotn├ş projekty a variabiln├ş load. Ale p┼Öi vysok├ęm, stabiln├şm objemu se self-hosted zlom├ş.

Break-even anal├Żza (2026):

M─Ťs├ş─Źn├ş objem	OpenAI cost	Self-host cost	Kdy preferovat self-host
< 50 M tokens	~35 000 K─Ź	~180 000 K─Ź	Nikdy (OpenAI)
500 M tokens	~350 000 K─Ź	~220 000 K─Ź	Hrani─Źn├ş
5 B tokens	~3,5 mil. K─Ź	~380 000 K─Ź	Jasn─Ť self-host
50 B tokens	~35 mil. K─Ź	~800 000 K─Ź	Definitivn─Ť self-host

Pozor, kalkulace je zjednodu┼íen├í ÔÇö self-host m├í fixed costs (HW, lid├ę), OpenAI je variable. Ale trend je jasn├Ż.

2. Compliance a data sovereignty

Regulovan├ę odv─Ťtv├ş (banky, poji┼í┼ąovny, zdravotnictv├ş) maj├ş probl├ęm s t├şm, ┼że data opou┼ít─Ťj├ş jejich infrastrukturu. ChatGPT Enterprise a Claude for Work slibuj├ş, ┼że data nepou┼ż├şvaj├ş k tr├ęninku, ale:

Physical location dat (servery v USA / Irsku)
Jurisdikce (US CLOUD Act, UK Investigatory Powers Act)
NIS2 compliance (samostatn├Ż ─Źl├ínek)
Sectorov├ę regulace (─îNB, DORA)

Self-hosted model b─Ť┼ż├ş ve va┼íem datacentru. Data neopust├ş hranice. Compliance story je mnohem jednodu┼í┼í├ş.

3. Vendor risk

OpenAI je jedin├Ż dodavatel pro v┼íechny sv├ę modely. Jeden v├Żpadek, jeden policy change, jedno nav├Ż┼íen├ş cen ÔÇö v┼íichni klienti zasa┼żeni. Open-source modely jsou nez├ívisl├ę na jednom vendorovi. M┼»┼żete p┼Öej├şt na jin├Ż, self-host nebo zp─Ťt.

4. Customizace

Fine-tuning na intern├şch datech je s open-source modely mnohem p┼Ö├şmo─Źa┼Öej┼í├ş. OpenAI nab├şz├ş fine-tuning, ale:

Omezen├ę na vybran├ę modely
Va┼íe data teoreticky neopust├ş OpenAI, ale prakticky jsou tam
Z├ívislost na jejich infrastruktu┼Öe

Self-host: vlastn├ş LoRA adapt├ęry, vlastn├ş embeddings, vlastn├ş RAG. Pln├í kontrola.

5. Specializovan├ę use cases

Code generation, intern├ş Q&A, translation, summarization ÔÇö pro tyto ├║koly jsou dob┼Öe vylad─Ťn├ę open-source modely srovnateln├ę s GPT-4 t┼Ö├şdou. A p┼Öi objemu jsou dramaticky levn─Ťj┼í├ş.

Kdy m├í self-host SMYSL (a kdy ne)

ANO

Stabiln├ş, vysok├Ż token volume (> 1 B m─Ťs├ş─Źn─Ť)
Regulovan├ę odv─Ťtv├ş s compliance po┼żadavky
Pot┼Öeba fine-tuningu na proprietary datech
Citliv├í data, kter├í nesm├ş opustit firmu
Dlouhodob├í strategie AI as core capability

NE

Experiment├íln├ş / pilotn├ş f├íze
Variabiln├ş, low-volume use case
Pot┼Öebujete nejnov─Ťj┼í├ş frontier capabilities (o3, Claude Opus)
Nem├íte intern├ş ML / MLOps kapacitu
Va┼íe AI je nekritick├í dopl┼łkov├í funkce

Co vlastn─Ť znamen├í ÔÇ×vlastn├ş AIÔÇť

Existuje spektrum ┼Öe┼íen├ş:

1. Managed API (OpenAI, Anthropic, Google)

Pro: nejrychlej┼í├ş start, nejvy┼í┼í├ş kvalita
Proti: vendor lock-in, data leaves premises, cena p┼Öi objemu

2. Cloud-hosted open-source (Bedrock, Azure AI, Vertex)

AWS Bedrock ÔÇö Llama, Claude, Mistral
Azure AI ÔÇö OpenAI + Mistral + Llama
Sn├ş┼żen├ę data privacy concerns vs. p┼Ö├şm├ę API, ale st├íle cloud

3. Managed on-premise (Hugging Face, Anyscale)

Provozov├ín├ş model┼» v vlastn├şm cloud accountu s managed vrstvou
Hybrid mezi cloud-flexibility a data-control

4. Pure self-hosted (GPU servery, on-prem)

NVIDIA H100 / A100 v datacentru
Pln├í kontrola, nejni┼ż┼í├ş variable cost, nejvy┼í┼í├ş fixed cost
Vy┼żaduje ML ops kapacitu

5. Edge AI

Men┼í├ş modely (3BÔÇô8B parametr┼») na lok├íln├şch za┼Ö├şzen├şch
Pro specifick├ę use cases (retail, v├Żroba)
Minim├íln├ş latence, offline provoz

Ekonomika self-hostu

Hardware options (2026)

Setup	Cena HW	Monthly cloud equivalent	Throughput (tokens/s)
2├Ś RTX 4090 (consumer)	130 000 K─Ź	~50 000 K─Ź	~300
1├Ś H100 80GB	1,2 mil. K─Ź	~280 000 K─Ź	~1 500
2├Ś H100 SXM	3 mil. K─Ź	~650 000 K─Ź	~4 000
8├Ś H200 (enterprise)	12 mil. K─Ź	~2 mil. K─Ź	~20 000

Pro banking use case (800 users, 12k queries/day) byl dostatek 1├Ś H100. HW za 1,2 mil. K─Ź + ML engineer 180k/m─Ťs├şc = ROI 8 m─Ťs├şc┼» p┼Öi 1,5 mil. K─Ź p┼»vodn├ş cost.

Opera─Źn├ş n├íklady

Elekt┼Öina: H100 ┼żere ~700W pod z├ít─Ť┼ż├ş, ~70 kWh/den = 500 K─Ź/den
Cooling: +40 % spot┼Öeby
MLOps engineer: 150 000 ÔÇô 250 000 K─Ź/m─Ťs├şc
Monitoring, maintenance: 10 % HW hodnoty ro─Źn─Ť

TCO 3 roky pro mid-size setup (2├Ś H100)

Polo┼żka	Rok 1	Rok 2	Rok 3	Celkem
HW investice	3 000 000 K─Ź	0	0	3 000 000 K─Ź
Elekt┼Öina	400 000 K─Ź	420 000 K─Ź	440 000 K─Ź	1 260 000 K─Ź
MLOps	2 400 000 K─Ź	2 520 000 K─Ź	2 640 000 K─Ź	7 560 000 K─Ź
Maintenance	300 000 K─Ź	315 000 K─Ź	330 000 K─Ź	945 000 K─Ź
Celkem	6 100 000 K─Ź	3 255 000 K─Ź	3 410 000 K─Ź	12 765 000 K─Ź

Ekvivalent managed API: ~650 000 K─Ź ├Ś 36 m─Ťs├şc┼» = 23,4 mil. K─Ź.

├Üspora za 3 roky: ~10,6 mil. K─Ź (ale vy┼żaduje dostate─Źn├Ż sustained volume).

Open-source modely 2026: co re├íln─Ť pou┼ż├şvat

General purpose

Llama 3.3 70B ÔÇö nejlep┼í├ş ratio size/capability
Qwen 2.5 72B ÔÇö siln├Ż v reasoning
Mistral Large 2 ÔÇö evropsk├Ż, v├Żborn├í ─Źe┼ítina

Code generation

DeepSeek Coder V3
Qwen 2.5 Coder
Codestral

Vision / Multimodal

Llama 3.2 Vision
Qwen VL

Small / Edge

Llama 3.2 3B ÔÇö mobile / embedded
Phi-4 ÔÇö kompaktn├ş Microsoft model

─îe┼ítina

Nejlep┼í├ş ─Źeskou v├Żkonnost maj├ş Mistral, Llama 3.3 a Qwen 2.5. V─Ťt┼íina zvl├íd├í rodilou kvalitu v ─Źe┼ítin─Ť, ale doporu─Źujeme testovat na vlastn├şm use case.

Hybridn├ş strategie: nejlep┼í├ş obou sv─Ťt┼»

V─Ťt┼íina zral├Żch AI deployments nepou┼ż├şv├í jen jeden p┼Ö├şstup:

- Nekritick├ę, variabiln├ş Ôćĺ OpenAI / Claude API
- Citliv├í data Ôćĺ Azure OpenAI (EU region) nebo on-prem
- High-volume, stable Ôćĺ Self-hosted Llama
- Specializovan├ę ├║koly Ôćĺ Fine-tuned custom model
- Edge use cases Ôćĺ Small models lok├íln─Ť

Router layer rozhoduje, kter├Ż model odpov├ş na kter├Ż dotaz. Optimalizuje cost i kvalitu.

Case study: poji┼í┼ąovna repatriace

St┼Öedn─Ť velk├í ─Źesk├í poji┼í┼ąovna (anonymizov├íno, 2,8 mld. K─Ź premium) provedla v 2025 AI repatriaci:

Use cases:

Automatick├ę zpracov├ín├ş ┼íkodn├şch ud├ílost├ş (documents)
Intern├ş Q&A asistent (intern├ş znalostn├ş b├íze)
Code assistant pro v├Żvoj├í┼Öe

P┼Öed:

Azure OpenAI: ~820 000 K─Ź/m─Ťs├şc
Obavy z compliance (DORA, NIS2)
Rostouc├ş n├íklady s adopc├ş

Po:

On-prem setup: 4├Ś H100 (5,8 mil. K─Ź HW)
Llama 3.3 70B fine-tuned na intern├ş data
MLOps team 2 FTE (380 000 K─Ź/m─Ťs├şc)
Monthly cost ~500 000 K─Ź v─Źetn─Ť power, cooling, maintenance

V├Żsledek:

Monthly cost: 820k Ôćĺ 500k (-39 %)
Latence pro intern├ş users: -55 %
Data sovereignty: Ôťů
Fine-tuned quality na specific tasks: +18 % accuracy oproti baseline Llama
ROI na HW: 18 m─Ťs├şc┼»

FAQ: Self-hosted AI

Pot┼Öebujeme vlastn├ş datacentrum? Ne nutn─Ť. M┼»┼żete m├şt colocation v profesion├íln├şm datacentru (CE Colo, Master DC, TTC Teleport) s GPU serverem. Full rack├í kapacita pro GPU stoj├ş 18 000 ÔÇô 35 000 K─Ź/m─Ťs├şc.

Kolik lid├ş pot┼Öebujeme? Minimum 2 FTE: ML / MLOps engineer + DevOps / SRE. Pro mal├ę setupy m┼»┼że b├Żt 1 fractional + extern├ş konzultant.

Kde sehnat H100 / H200? 2026 je dostupnost lep┼í├ş ne┼ż 2024ÔÇô2025, ale po┼Ö├íd ─Źekac├ş doby 8ÔÇô16 t├Żdn┼». NVIDIA partner channel (Atea, DNS, Gigabyte distributors).

Co pokud pot┼Öebujeme GPT-4 kvalitu ve specific tasks? Pro nejn├íro─Źn─Ťj┼í├ş tasks pou┼ż├şvejte hybrid: 90 % p┼Öes self-host, 10 % p┼Öes premium API. Router rozhodne.

Jak to souvis├ş s AI Act? AI Act (samostatn├Ż ─Źl├ínek) se nestaral o to, kde model b─Ť┼ż├ş ÔÇö ale pokud jste provider nebo deployer high-risk syst├ęmu, self-hosted nasazen├ş v├ím d├ív├í v─Ťt┼í├ş kontrolu nad data governance, logging a transparency, kter├ę AI Act vy┼żaduje.

Zva┼żujete self-hosted AI nebo hybridn├ş strategii?

Na Poptej.IT zad├íte popt├ívku na AI strategy consulting, MLOps implementaci nebo fine-tuning projektu. Ov─Ť┼Öen├ş AI specialist├ę z ─îR, anonymn├ş sout─Ť┼ż, feedback ranking. Prvn├şch 5 zak├ízek bez provize. Dostanete 5ÔÇô12 nab├şdek b─Ťhem 72 hodin.

Zadat popt├ívku na AI projekt Ôćĺ

Sdílet: LinkedIn X Facebook