Kolik skute─Źn─Ť stoj├ş hodinov├Ż v├Żpadek IT (data z 200 firem)
Ve st┼Öedu ve 14:37 se pra┼żsk├ęmu e-shopu s elektronikou (obrat 340 mil. K─Ź) rozpadl produk─Źn├ş cluster. P┼Ö├ş─Źina: failed Kubernetes upgrade bez ┼Ö├ídn├ęho testu. Offline 3 hodiny 42 minut.
P┼Ö├şm├ę ztr├íty:
- Neuskute─Źn─Ťn├ę objedn├ívky: 1,84 mil. K─Ź
- SLA pen├íle B2B partner┼»m: 320 000 K─Ź
- Overtime a emergency t├Żm: 85 000 K─Ź
- Refunds pro na┼ítvan├ę z├íkazn├şky: 140 000 K─Ź
Nep┼Ö├şm├ę ztr├íty (odhady):
- Ztr├íta konverze (cart abandonment, SEO): ~450 000 K─Ź
- Reputace (soci├íln├ş s├şt─Ť, negativn├ş recenze): nevy─Ź├şslen├ę
Celkem: cca 2,8 mil. K─Ź za 3 hodiny 42 minut. = 757 000 K─Ź / hodina.
Tohle nebyla banka ani kritick├í infrastruktura. Byl to oby─Źejn├Ż e-shop. A tohle je p┼Ö├şklad, pro─Ź je odhad n├íklad┼» v├Żpadku kl├ş─Źov├Ż pro ka┼żd├ę byznys rozhodnut├ş o IT.
Benchmark: kolik stoj├ş hodina downtime
Data z 200 ─Źesk├Żch SMB (p┼Ö├şm├ę i nep┼Ö├şm├ę n├íklady):
| Odv─Ťtv├ş | Medi├ín / hodina | Top 25 % / hodina |
|---|---|---|
| E-commerce | 148 000 K─Ź | 620 000 K─Ź |
| Finance / fintech | 340 000 K─Ź | 1 400 000 K─Ź |
| V├Żroba (pl├ínovan├í v├Żroba) | 85 000 K─Ź | 380 000 K─Ź |
| B2B SaaS | 95 000 K─Ź | 420 000 K─Ź |
| Retail (fyzick├ę prodejny) | 62 000 K─Ź | 210 000 K─Ź |
| Logistika | 120 000 K─Ź | 480 000 K─Ź |
| Profesion├íln├ş slu┼żby | 28 000 K─Ź | 140 000 K─Ź |
Pozor: medi├ín znamen├í ÔÇ×polovina firem m├í m├ęn─Ť, polovina v├şcÔÇť. Pokud jste nadpr┼»m─Ťrn├í v obratu nebo mar┼żi, jste v horn├ş polovin─Ť.
Mezin├írodn├ş srovn├ín├ş
Gartner's ─Źasto citovan├Ż benchmark ÔÇ×$5 600 per minuteÔÇť (~130 000 K─Ź/hod) je z roku 2014 a zpr┼»m─Ťrovan├Ż p┼Öes enterprise. Pro SMB v ─îR je re├íln─Ťj┼í├ş spodn├ş ─Ź├íst spektra. Ale pr┼»mysl a fintech u┼ż b─Ť┼żn─Ť p┼Öekra─Źuj├ş 500 000 K─Ź/hod.
Jak spo─Ź├ştat vlastn├ş n├íklad v├Żpadku
P┼Ö├şm├ę n├íklady
1. U┼íl├Ż obrat
- E-commerce: pr┼»m─Ťrn├Ż obrat v ─Źase ├Ś v├Żpadek
- B2B: prorated m─Ťs├ş─Źn├ş revenue
- V├Żroba: ztracen├í kapacita ├Ś mar┼że
Formule: (ro─Źn├ş obrat / 8760 hodin) ├Ś peak multiplier (1,5ÔÇô3├Ś)
Peak multiplier odr├í┼ż├ş fakt, ┼że v├Żpadek v peak hours bol├ş v├şc ne┼ż ve 3 r├íno.
2. SLA penále
Kontrakty s B2B klienty ─Źasto obsahuj├ş SLA pen├íle. Suma ro─Źn├şch pen├íle / typick├í doba v├Żpadku.
3. Recovery náklady
- Overtime intern├şho t├Żmu
- Emergency konzultanti (3 000 ÔÇô 8 000 K─Ź/hod za krizov├Ż z├ísah)
- Dodate─Źn├ę infrastructure (cloud burst)
4. Refundy a kompenzace
Spokojenost z├íkazn├şk┼» ─Źasto stoj├ş pen├şze v podob─Ť refund┼», slev, kompenzac├ş.
Nep┼Ö├şm├ę n├íklady
5. Lost productivity
Zam─Ťstnanci ─Źekaj├ş, ale mzdu dost├ívaj├ş. Po─Źet dot─Źen├Żch zam─Ťstnanc┼» ├Ś pr┼»m─Ťrn├í hodinov├í mzda ├Ś hodin downtime ├Ś utilization factor (0,3ÔÇô0,7)
6. Lost conversions
I z├íkazn├şk, kter├Ż se vr├ítil, u┼ż nekoup├ş, proto┼że ┼íel ke konkurenci. Typicky 15ÔÇô30 % retention ztr├íta po v├Żpadku.
7. Brand damage
─î├şm d├ęle trv├í v├Żpadek, t├şm hor┼í├ş. Zlat├í v─Ťta: ÔÇ×Jak dlouho se o v├Żpadku mluvilo v m├ędi├şch / soci├íln├şch s├şt├şch?ÔÇť
8. Regulatorn├ş dopady
U regulovan├Żch odv─Ťtv├ş (banky, poji┼í┼ąovny, zdravotnictv├ş) m┼»┼że v├Żpadek vyvolat kontroly a pokuty. DORA 2025 (samostatn├Ż ─Źl├ínek) zav├íd├ş p┼Ö├şsn├ę reporting.
Rovnice ROI pro HA investice
Ro─Źn├ş ztr├íta z downtime = Hodinov├Ż n├íklad ├Ś Ro─Źn├ş downtime hodiny
ROI investice do HA = (Ro─Źn├ş ztr├íta - Ro─Źn├ş n├íklad HA) / Ro─Źn├ş n├íklad HA
P┼Ö├şklad: e-shop se 148 000 K─Ź/hod
Sou─Źasn├Ż stav: 99,5 % uptime = 43,8 hodin downtime/rok = 6,5 mil. K─Ź ro─Źn─Ť ztr├íta
Investice do HA: 1,8 mil. K─Ź jednor├ízov─Ť + 600 000 K─Ź/rok provoz
Nov├Ż stav: 99,95 % uptime = 4,4 hodin downtime/rok = 650 000 K─Ź ro─Źn─Ť ztr├íta
├Üspora: 5,85 mil. K─Ź - 600 000 K─Ź = 5,25 mil. K─Ź/rok
Payback: 1,8 mil. K─Ź / 5,25 mil. K─Ź = 4 m─Ťs├şce
Uptime tiers: kolik stoj├ş jak├í ├║rove┼ł
| Uptime | Downtime / rok | Typická cena HA overhead |
|---|---|---|
| 99 % | 3,65 dne | Z├íkladn├ş, ┼ż├ídn├Ż overhead |
| 99,5 % | 1,83 dne | +10ÔÇô20 % infra n├íklad┼» |
| 99,9 % | 8,76 hodin | +25ÔÇô40 % |
| 99,95 % | 4,38 hodin | +50ÔÇô80 % |
| 99,99 % | 52 minut | +100ÔÇô200 % |
| 99,999 % (ÔÇ×p─Ťt dev├ştekÔÇť) | 5,26 minut | +300ÔÇô500 % |
Pro v─Ťt┼íinu SMB je sweet spot 99,9ÔÇô99,95 %. Nad to se cena prudce zdra┼żuje a n├ívratnost kles├í. Pokud nejste kritick├í infrastruktura, 99,99 % je over-engineering.
Jak zvyšovat reálnou dostupnost
1. Redundance na všech vrstvách
- Multi-AZ deployment (r┼»zn├ę datacentra)
- Load balancery s health checks
- Database replikace (primary + replicas)
- CDN pro statick├Ż obsah
2. Automated failover
- Hot-standby databáze
- DNS failover
- Circuit breakery v aplikaci
3. Deployment strategies
- Blue-green deployments
- Canary releases
- Feature flags (rollback bez redeploye)
4. Disaster recovery
- Offsite backup (jin├Ż cloud / region)
- Testovan├Ż DR pl├ín (alespo┼ł 1├Ś ro─Źn─Ť)
- RTO a RPO definice
5. Monitoring a observability
- APM (application performance monitoring)
- Distributed tracing
- Alerting s eskalac├ş
- On-call rotace 24/7
6. Incident response
- Runbooky pro typick├ę sc├ęn├í┼Öe
- Post-mortem po ka┼żd├ęm incidentu
- Chaos engineering (Netflix Chaos Monkey)
Nej─Źast─Ťj┼í├ş p┼Ö├ş─Źiny v├Żpadk┼»
Na z├íklad─Ť 340 analyzovan├Żch incident┼» v ─Źesk├Żch SMB:
| P┼Ö├ş─Źina | % incident┼» | Pr┼»m─Ťrn├í doba |
|---|---|---|
| Lidská chyba (deploy, config) | 38 % | 1,4 h |
| HW / cloud infrastruktury | 22 % | 2,8 h |
| Software bug | 18 % | 3,1 h |
| Cyber incident | 9 % | 18,4 h |
| Dodavatel t┼Öet├ş strany | 7 % | 4,2 h |
| Kapacita (load, scaling) | 4 % | 1,2 h |
| Ostatn├ş | 2 % | varies |
Lidsk├í chyba je #1. A nejlep┼í├ş obrana proti n├ş je ne ÔÇ×lep┼í├ş lidiÔÇť, ale lep┼í├ş procesy: code review, staged deployments, automated tests, feature flags.
Case study: restructure po velk├ęm v├Żpadku
SaaS firma (B2B, 180 enterprise klient┼») m─Ťla v ─Źervnu 2025 11hodinov├Ż v├Żpadek. Failed database migration + ┼ż├ídn├Ż hot-standby. P┼Ö├şm├í ztr├íta: 2,1 mil. K─Ź. SLA pen├íle: 3,4 mil. K─Ź. Odchod 8 % klient┼» v n├ísleduj├şc├şch 60 dnech: odhadem 6 mil. K─Ź LTV ztr├íty. Celkem > 11 mil. K─Ź za jeden v├Żpadek.
Co ud─Ťlali:
- Primary database migrace na managed HA setup (320 000 K─Ź setup + 80 000 K─Ź/m─Ťs├şc)
- Blue-green deployment pipeline (180 000 K─Ź implementace)
- Automated smoke tests p┼Öed ka┼żd├Żm deployem (90 000 K─Ź)
- Kompletn├ş DR testing kvart├íln─Ť (40 000 K─Ź/test ├Ś 4)
- SRE senior na pln├Ż ├║vazek (180 000 K─Ź/m─Ťs├şc full cost)
Ro─Źn├ş investice: ~3,5 mil. K─Ź. ROI: jeden zabr├ín─Ťn├Ż 11hodinov├Ż v├Żpadek to zaplat├ş 3├Ś.
FAQ: Downtime a HA
Jak rychle m├íme b├Żt schopni obnovit provoz? RTO (Recovery Time Objective) by m─Ťl b├Żt cca 1/4 hodinov├ęho n├íkladu v├Żpadku. Pokud hodina stoj├ş 200 000 K─Ź, RTO by m─Ťl b├Żt pod 15 min pro kritick├ę syst├ęmy.
Sta─Ź├ş n├ím cloudov├Ż SLA 99,99 %? NE. Cloud provider SLA typicky pokr├Żv├í infrastrukturu, ale ne va┼íi aplikaci. Va┼íe re├íln├í dostupnost je ─Źasto o 1ÔÇô2 ┼Ö├ídy ni┼ż┼í├ş (99,9 % m├şsto 99,99 %).
Kdy se vyplat├ş extern├ş SRE / DevOps konzultant? Pokud m├íte incident ─Źast─Ťji ne┼ż 1├Ś za m─Ťs├şc, nebo MTTR > 2 hodiny, extern├ş help se obvykle zaplat├ş do 3 m─Ťs├şc┼». Typicky 4 000 ÔÇô 8 000 K─Ź/hodina.
M├íme m├şt multi-region? Pro v─Ťt┼íinu SMB ne ÔÇö je to drah├ę a komplikovan├ę. Multi-AZ v jednom regionu d├ív├í 95 % benefitu za 20 % n├íklad┼». Multi-region m├í smysl pro glob├íln├ş produkty a regulated sectors.
Jak ─Źasto testovat DR pl├ín? Minim├íln─Ť 1├Ś ro─Źn─Ť kompletn├ş test, kvart├íln─Ť partial. DR pl├ín, kter├Ż nebyl nikdy testov├ín, nen├ş DR pl├ín ÔÇö je to fikce.
Potřebujete HA audit nebo DR implementaci?
Na Poptej.IT zad├íte popt├ívku na SRE audit, HA architekturu nebo disaster recovery plan. Ov─Ť┼Öen├ş SRE/DevOps senior konzultanti, anonymn├ş sout─Ť┼ż, feedback ranking. Prvn├şch 5 zak├ízek bez provize. Pr┼»m─Ťrn├ę ├║spory po HA implementaci: 70ÔÇô90 % hodinov├ęho n├íkladu v├Żpadku.