Spolehlivost = schopnost systému nebo součásti vykonávat požadované funkce za daných podmínek po určené časové období
Dostupnost = charakteristika představující úroveň, do které je systém nebo součást funkční a k dispozici v případě, že je vyžádáno její použití. Dostupnost lze považovat za pravděpodobnost, že se systém nebo součást nachází ve stavu, kdy umožňuje provádět požadované funkce za určených podmínek a v daném časovém okamžiku. Dostupnost se vypočítává jako MTBF / (MTBF + MTTR) Příklad: dostupnost 99,99% pro 24x7x365: celkem 8760, TTR = 0,876 hod.
Bezpečnost je schopnost systému bude buďto pracovat správně, nebo ukončit svoji činnost takovým způsobem, že nenaruší činnost jiného systému.
MTBF
Střední doba mezi poruchami (MTBF, Mean Time Between Failures) - statistická veličina, sloužící k ohodnocení spolehlivosti systému, u kterého se předpokládá okamžitá oprava. MTBF lze počítat takto:
MTBF = Suma(začátek výpadku - konec předchozího výpadku) / NumberOfFailures
Pravděpodobnost, že systém bude pracovat bez poruchy po dobu T (spolehlivost systému):
R(T) = e^-(T/MTBF)
Příklad: Systém s MTBF 250.000 hod., plánovaná doba nepřetržitého provozu 5 let (43.800 hod): tj. je pravděpodobnost 83.9%, že systém bude pracovat 5 let bez poruchy (respektive, že 83,9% z provozovaných systémů bude po 5 letech stále pracovat).
MTBF je často chybně interpretována jako předpokládaný počet provozních hodin před selháním systému nebo jako „servisní životnost“.
MTBF jsou založeny na pravděpodobnosti poruch produktu při „běžných podmínkách“ nebo „při standardním provozu“ a předpokládá se, že pravděpodobnost poruchy se s časem nemění a je stejná bez ohledu na dobu provozu. V této fázi životnosti produktu se dosahuje nejnižší (a konstantní) pravděpodobnosti poruchy.
Provoz systému omezuje doba jeho životnosti, která je podstatně kratší než hodnoty MTBF. Je docela možné vyrobit produkt s extrémně vysokou spolehlivostí (MTBF), který však bude mít krátkou očekávanou životnost. Dále se vyskytuje metrika střední doba do poruchy (MTTF, Mean Time to Failure), což je stejně počítaná metrika ovšem pro zařízení, která se neopravují. Charakteristika MTBF se obvykle odhaduje na základě sledování vzorku podobných systémů, který je obvykle analyzován po implementaci dostatečně velkého počtu produktů do provozu.
MDT Střední doba výpadku (MDT, mean down time) - střední doba, po kterou je systém mimo provoz. Zahrnuje veškeré časy opravy, preventivní údržby, odstávky aj.
MTTR Střední doba opravy (obnovy) (MTTR, Mean Time to Repair) - očekávaný časový interval, během kterého dojde k obnovení systému po poruše. Zahrnuje čas pro diagnostiku a celkovou dobu opravy systému.
MTTR je obvykle součástí servisní smlouvy na údržbu IS - „měkká“ podmínka, negarantuje absolutní čas, ale průměrnou trendovou hodnotu. Vhodnější je použít charakteristiku „maximální doba opravy“. Někteří dodavatelé interpretují MTTR jako „mean time to respond“, tj. reakční doba bez garance odstranění poruchy.
Samotná spolehlivost nemusí často pokrýt dostatečně hodnocení komplexnějšího systému, proto se vytvářejí celé spolehlivostní modely, které mají za úkol predikovat spolehlivost zejména při návrhu systémů pro kritické aplikace. Ukazatele spolehlivosti jsou počítány z informací o jednotlivých komponentách (blocích) a způsobu použití.
Existuje řada modelů:
Sériové modely jsou velmi časté, ale čisté paralelní systémy spolehlivosti jsou velmi ojedinělé. V praxi jsou nejčastěji tzv. kombinované modely, v nichž se vyskytují různé kombinace sériových a paralelních systémů.
Definice názvosloví Chyba → Porucha → Selhání → Havárie
Příklad:
Chyba: neošetřená výjimka v ovladácím programu vodárny
Porucha: systém otevírá ventil
Selhání: vodárna přeteče
Havárie: zaplavená hala
Systém nebyl navržen s ohledem na správnou reakci - není Fault Tolerant
Základní postupy při návrhu FT systémů, kterými eliminujeme (minimalizujeme) vliv chyb na systém:
Použití jak pro hardwarovou, tak i pro softwarou část řešení. Některé návrhy systémů v návaznosti na spolehlivostní modely jsou popsány níže. Je tím i pokryto téma redundance.
Výsledná spolehlivost IS je určena současně:
Cílem je zabezpečit odolnost proti vytipovaným poruchám s nejkritičtějšími následky. Prostředky jsou:
Pozn.: Softwarová redundance – realizace stejného algoritmu různými dodavateli, v odlišném programovacím jazyce, odlišném vývojovém prostředí, pro odlišný operační systém. Není to moc časté a jedná se zejména o kritické softwarové systémy např. pro armádní projekty atp.
Generalizace ideálních paralelních systémů. V M z N systému je nutné ke správné činnosti systému jeho M prvků z celkových N prvků.
DMR (Dual Modular Redundand) - pouze zdvojení
TMR (Triple Modular Redundand) - uspořádání tří prvků tak, aby výpadek jednoho vedl k maskování poruchy v systému.
Toto téma obsahuje výše zmíněnou problematiku redundance, dále se sem hodí další kapitoly:
Je vlastnost systému, indikující jeho schopnost přizpůsobit se rostoucím požadavkům na kapacitu, výkon, odezvu, dostupnost systému a atd., popřípadě být připraven na rozšíření. Škálovatelnost je často omezena návrhem/implementací systému.
Dimenze škálovatelnosti:
Kategorie škálovatelnosti
Dvě definice:
Systém reálného času (real-time system) - informační systém, který zpracovává asynchronní vstupy a produkuje odpovědi v pevně stanoveném čase. Doba, kterou má systém k dispozici pro provedení úlohy, je známa předem. Na počtu vstupů a jimi vyvolané pracovní zátěži systému přitom nezáleží.
Systém reálného času - informační systém, který zpracovává asynchronní vstupy a produkuje odpovědi. Potřebný čas může být odvozen ze zátěže systému. Tento čas musí být ohraničený → nejdelší možná doba odezvy.
Rozlišujeme:
Požadavky pro RTOS (realtime operating system) definuje standard Posix 1003.1b, Real-time extensions (Priority Scheduling, Real-Time Signals, Clocks and Timers, Semaphores, Message Passing, Shared Memory, Asynch and Synch I/O, Memory Locking Interface) – dnes implementováno např. v RTOS Lynx, QNX, VxWork, RTLinux ale i částečně Solaris, Linux, FreeBSD.