Wendy Torell, Victor Avelar 2011-10-03

Przewidywany czas działania między uszkodzeniami: opis i standardy (cz. 1)

MTBF (Mean Time Between Failure) to termin dotyczący niezawodności, wykorzystywany od czasu do czasu w wielu gałęziach przemysłu, natomiast w niektórych branżach szeroko nadużywany. Przez lata pierwotne znaczenie tego terminu uległo zmianie, co doprowadziło do pewnego zamieszania i cynicznego stosunku względem niego. Współczynnik MTBF opiera się w głównej mierze na założeniach i definicji awarii. Jednak do prawidłowej interpretacji koniecznie wymagane jest szczegółowe zrozumienie tych informacji. W tym dokumencie wyjaśniono trudności oraz błędne założenia związane ze współczynnikiem MTBF oraz dostępne metody stosowane do jego wyznaczania.

Współczynnik MTBF (Time Between Failure) jest w użyciu od 60 lat jako podstawowy czynnik brany pod uwagę przy różnych decyzjach. W ciągu wielu lat opracowano ponad 20 metod i procedur do przewidywania cykli życia. Dlatego nie dziwi, że współczynnik MTBF jest od dłuższego czasu tematem niekończącej się dyskusji. Obszar, gdzie jest to szczególnie widoczne, to projektowanie obiektów o znaczeniu krytycznym, w których znajduje się sprzęt IT i telekomunikacyjny. Gdy minuty przestoju mogą mieć negatywny wpływ na wartość rynkową firmy, kluczowe znaczenie ma niezawodność fizycznej infrastruktury obsługującej otoczenie sieciowe. Może się okazać, że docelowej niezawodności biznesowej nie osiągnie się bez pełnego zrozumienia współczynnika MTBF. W tym dokumencie wyjaśniono każdy aspekt współczynnika MTBF. W całym artykule zamieszczono przykłady, aby uprościć złożone zagadnienia i wyjaśnić błędne założenia.

Co to jest awaria? Co to są założenia?
Te pytania należy zadać natychmiast w momencie rozpoczęcia przeglądu wartości współczynnika MTBF. Bez odpowiedzi na nie merytoryczna wartość dyskusji jest niewielka. Współczynnik MTBF często cytuje się bez zamieszczenia definicji awarii. Taka praktyka zarówno prowadzi do błędnych wniosków, jak i jest całkowicie bezużyteczna. Podobną praktyką byłoby zamieszczanie danych o zużyciu paliwa przez samochód jako „liczba kilometrów na zbiornik”, bez podania pojemności zbiornika w litrach czy galonach. Aby rozwiązać tę niejasność, zazwyczaj przyjmuje się, że istnieją dwie podstawowe definicje awarii:
      1) Niezdolność produktu jako całości do wykonywania wymaganych funkcji.
      2) Niezdolność poszczególnych elementów do wykonywania wymaganych funkcji, jednak produkt jako całość wciąż może wykonywać wymagane funkcje.
Poniższe dwa przykłady stanowią ilustracje tego, jak poszczególny tryb awarii w produkcie może nie zostać zaklasyfikowany jako awaria, w zależności od wybranej definicji.

Przykład 1:
Awaria dysku nadmiarowego w macierzy RAID nie sprawia, że macierz RAID przestaje wykonywać w dowolnym czasie wymagane funkcje związane z dostarczaniem danych o znaczeniu krytycznym. Jednak awaria dysku sprawia, że element macierzy dysków przestaje spełniać wymaganą funkcję przechowywania danych. Dlatego też przypadek ten zgodnie z definicją 1 nie jest awarią, natomiast definicja 2 klasyfikuje go jako awarię.

Przykład 2:
Jeżeli inwerter zasilacza UPS ulega awarii i zasilacz UPS przełącza się w tryb obejściowy, mimo tej awarii zasilacz UPS może wciąż wykonywać wymagane funkcje związane z zasilaniem urządzenia krytycznego. Jednak awaria inwertera sprawia, że element zasilacza UPS przestaje spełniać wymaganą funkcję związaną z dostarczaniem odpowiedniej mocy. Podobnie jak w poprzednim przypadku jest to awaria tylko według drugiej definicji.

W przypadku tylko dwóch definicji, zdefiniowanie awarii wydaje się być raczej proste. Niestety, gdy w grę wchodzi reputacja produktu, sprawa staje się prawie tak skomplikowana, jak sam współczynnik MTBF. W rzeczywistości istnieje więcej niż jedna definicja awarii — praktycznie ich liczba jest nieskończona. W zależności od typu produktu producenci mogą ustalać wiele definicji awarii. Producenci, którym zależy na jakości, śledzą wszystkie tryby awarii, aby zapewnić kontrolę nad procesem, co oprócz innych korzyści, usuwa usterki produktów. Dlatego też, aby dokładnie zdefiniować awarię, konieczne jest postawienie dodatkowych pytań.

Czy nieprawidłowe stosowanie przez klienta uznaje się za awarię? Może okazać się, że projektanci przeoczyli tzw. czynnik ludzki, co w rezultacie daje użytkownikom możliwość nieprawidłowego stosowania produktu. Czy utraty zasilania spowodowane przez pracownika serwisu sprzedawcy można uznać za awarię? Czy możliwe jest, że sam projekt produktu zwiększa prawdopodobieństwo awarii wynikającej z wykonania procedury, która sama w sobie jest ryzykowna? Czy awarię diody LED (Light Emitting Diode) w komputerze uznaje się za awarię, mimo że nie ma to żadnego wpływu na działanie komputera? Czy oczekiwane zużycie materiału eksploatacyjnego, na przykład akumulatora, można traktować jako awarię, jeżeli wystąpiło to przed czasem? Czy uszkodzenia powstałe podczas transportu to awarie? Może to wskazywać na niskiej jakości projekt opakowania. W związku z powyższym zrozumiałe jest, że zdefiniowanie awarii ma duże znaczenie i należy to uwzględniać podczas interpretowania dowolnych wartości współczynnika MTBF. Pytania takie jak te zamieszczone powyżej stanowią podstawę do podejmowania decyzji dotyczących niezawodności.

Mówi się, że inżynierowie nigdy się nie mylą, tylko przyjmują nieprawidłowe założenia. To samo można powiedzieć o osobach wyznaczających wartości współczynnika MTBF. Założenia są konieczne do uproszczenia procesu wyznaczania współczynnika MTBF. Jest rzeczą prawie niemożliwą, aby zebrać dane wymagane do obliczenia dokładnej wartości. Jednak wszystkie założenia muszą być realistyczne. W tym dokumencieopisano popularne założenia używane podczas wyznaczania współczynnika MTBF.

Definicja niezawodności, dostępności, współczynnika MTBF oraz współczynnika MTTR

Współczynnik MTBF ma wpływ zarówno na niezawodność, jak i dostępność. Przed wyjaśnieniem metod odnośnie współczynnika MTBF ważne jest, aby ustalić solidne podstawy dla tych pojęć. Różnica między niezawodnością a dostępnością jest często nieznana lub nieprawidłowo rozumiana. Wysoka dostępność i wysoka niezawodność często idą w parze, jednak terminów tych nie należy stosować zamiennie.

Niezawodność to zdolność systemu lub elementu do wykonywania żądanych funkcji w danych warunkach przez określony czas [IEEE 90].

Innymi słowy jest to prawdopodobieństwo, że system lub element pomyślnie zrealizuje swoje zadanie w określonym czasie bez awarii. Misja samolotu to doskonały przykład ilustrujący to pojęcie. Gdy samolot wylatuje na misję, istnieje tylko jeden cel: ukończyć lot zgodnie z planem i bezpiecznie (bez katastrofalnych awarii).

Dostępność to natomiast stopień działania i gotowość systemu lub elementu, gdy ich użycie jest wymagane [IEEE 90].

Można to traktować jako prawdopodobieństwo, że system lub element znajduje się w stanie, aby wykonywać wymaganą funkcję w danych warunkach w danym momencie. Na dostępność ma wpływ niezawodność systemu oraz czas naprawy po wystąpieniu awarii. W przypadku, gdy system cechuje się długimi ciągłymi czasami działania (na przykład 10-letnie centrum danych), awarie są nieuniknione. Dostępność jest często brana pod uwagę, ponieważ w momencie wystąpienia awarii krytyczną zmienną staje się szybkość naprawy systemu. W centrum danych niezawodność projektu systemu to najważniejsza zmienna o znaczeniu krytycznym, jednak gdy dojdzie do awarii, najważniejszym czynnikiem jest jak najszybsze ponowne uruchomienie sprzętu IT oraz procesu biznesowego w celu zminimalizowania przestoju.

Współczynnik MTBF (Mean Time Between Failure) to podstawowa miara niezawodności systemu. Zazwyczaj jest wyrażana w godzinach. Im wyższa wartość współczynnika MTBF, tym wyższa niezawodność produktu. Równanie 1 ilustruje tę zależność.

Równanie 1

Popularnym nieprawidłowym założeniem odnośnie współczynnika MTBF jest postawienie znaku równości między tym współczynnikiem a tzw. „okresem eksploatacji” — szacunkową liczbą godzin działania, po których dochodzi do awarii systemu. Nierzadko jednak podaje się współczynnik MTBF o wartości 1 miliona godzin — przeświadczenie, że system może bezawaryjnie działać bez przerwy przez 100 lat jest nieracjonalne. Wartości te są tak wysokie, ponieważ liczy się je na podstawie współczynnika awarii produktu w ich czasie użytkowania lub normalnym czasie eksploatacji. Zakłada się także, że współczynnik ten będzie obowiązywać w nieskończoność. Jednak w tej fazie cyklu eksploatacji produktu produkt cechuje się najniższym (i stałym) współczynnikiem awarii. W rzeczywistości tryby zużycia produktu ograniczyłyby czas jego eksploatacji znacznie wcześniej niż wartość współczynnika MTBF. Dlatego też nie należy tworzyć żadnego bezpośredniego powiązania między okresem eksploatacji a współczynnikiem awarii lub współczynnikiem MTBF. Produkt z niezwykle wysoką niezawodnością (MTBF) jednak niskim szacowanym okresem eksploatacji nie jest niczym nadzwyczajnym. Weźmy na przykład człowieka:

Populacja przykładowa obejmuje 500 000 osób w wieku 25 lat.
W ciągu całego roku zbierane są dane na temat awarii (zgonów) dla tej populacji.
Okres eksploatacji populacji wynosi 500 000 x 1 rok = 500 000 osobolat.
W ciągu roku 625 osób „uległo awarii” (zmarło).
Współczynnik awarii to 625 awarii / 500 000 osobolat = 0,125 %/rok.
Współczynnik MTBF jest odwrotnością współczynnika awarii, czyli 1 / 0,00125 = 800 lat.
Tak więc, nawet jeśli 25-letni ludzie mają wysoki współczynnik MTBF, ich oczekiwana żywotność (okres eksploatacji) jest znacznie krótszy i nie jest powiązany.

Praktycznie ludzie nie cechują się stałymi współczynnikami awarii. Wraz ze starzeniem się ma miejsce więcej „awarii”. Dlatego też jedynym wiarygodnym sposobem na obliczenie współczynnika MTBF, który byłby równy okresowi eksploatacji, byłoby odczekanie, aż cała badana populacja dwudziestopięciolatków zakończy życie. Następnie możliwe byłoby obliczenie średniej okresów życia. Większość zgodziłaby się, że liczba ta wyniosłaby 75–80 lat.

Tak więc jaki jest współczynnik MTBF dwudziestopięciolatka — 80 czy 800? Obie te wartości są prawdziwe! Jednak dlaczego ta sama populacja może cechować się dwoma tak skrajnie różnymi wartościami współczynnika MTBF? Wszystkiemu winne są założenia!

Jeżeli współczynnik MTBF wynoszący 80 lat lepiej odzwierciedla długość życia produktu (w tym przypadku ludzi), czy jest to lepsza metoda? Najwyraźniej jest bardziej intuicyjna. Istnieje jednak wiele zmiennych ograniczających praktyczne zastosowanie tej metody w przypadku produktów komercyjnych, takich jak systemy zasilaczy UPS. Największym ograniczeniem jest czas. Aby można było dokonać obliczeń, należałoby poczekać na śmierć całej badanej populacji; w przypadku wielu produktów cykl ten wynosi 10–15 lat. Oprócz tego nawet jeżeli taki okres oczekiwania na obliczenie współczynnika MTBF byłby racjonalnie uzasadniony, wystąpiłyby problemy ze śledzeniem produktów. Na przykład, skąd producent może wiedzieć, czy produkty są dalej w użyciu, czy też może zostały one wycofane z użycia i ten fakt nie został nigdy zaraportowany?

W końcu nawet jeżeli wszystkie wymienione powyżej czynniki byłyby możliwe, technologia zmienia się tak szybko, że w momencie, gdy można byłoby obliczyć tę wartość, byłaby ona bezużyteczna. Kto potrzebuje wartości współczynnika MTBF produktu, który został zastąpiony kilkoma generacjami aktualizacji technologicznych?

Współczynnik MTTR [Mean Time to Repair (or Recover)] to szacunkowy czas naprawy systemu po awarii. Może on uwzględniać czas wymagany na zdiagnozowanie problemu, czas wymagany na przyjazd inżyniera pomocy technicznej oraz czas fizycznej naprawy systemu. Podobnie jak w przypadku współczynnika MTBF, współczynnik MTTR jest wyrażany w godzinach. Tak jak zostało to przedstawione za pomocą równania 2, współczynnik MTTR ma wpływ na dostępność, ale nie na niezawodność. Im większa wartość współczynnika MTTR, tym gorszy jest system. Po prostu naprawa systemu po awarii zajmuje więcej czasu; system będzie miał mniejszą dostępność. Poniższe równanie ilustruje, w jaki sposób współczynniki MTBF oraz MTTR mają wpływ na ogólną dostępność systemu. Im wyższy współczynnik MTBF, tym większa dostępność. Im wyższy współczynnik MTTR, tym mniejsza dostępność.

Równanie 2


Aby przedstawione powyżej równania 1 i 2 były prawdziwe, należy przyjąć podstawowe założenie podczas analizowania współczynnika MTBF systemu. W przeciwieństwie do systemów mechanicznych większość systemów elektronicznych nie ma ruchomych części. W wyniku tego ogólnie przyjmuje się, że systemy lub elementy elektroniczne cechują się stałymi współczynnikami awarii podczas ich okresu eksploatacji. Rysunek 1, przedstawiający krzywą współczynnika awarii, ilustruje pochodzenie tego wymienionego wcześniej założenia o stałym współczynniku awarii. „Czas normalnej pracy” lub „czas użytkowania” na tej krzywej to etap, w którym produkt jest użytkowany. Jest to okres, w którym jakość produktu wyrównuje się ze stałym współczynnikiem awarii względem czasu. Źródła awarii na tym etapie to między innymi niewykryte usterki, niskiej jakości projekt pod względem bezpieczeństwa, większe przypadkowe obciążenia niż zakładano, czynnik ludzki oraz awarie losowe. Dodatkowe okresy wygrzewania produktów przeprowadzane przez producentów, prawidłowa konserwacja oraz zapobiegawcza wymiana zużytych części powinna zapobiec temu typowi gwałtownego spadku krzywej widocznemu w „okresie zużycia”. Powyższa dyskusja daje podstawowe informacje dotyczące pojęcia i różnic odnośnie niezawodności oraz gotowości, co pozwala na prawidłową interpretację współczynnika MTBF. W następnej części omówiono różne metody przewidywania współczynnika MTBF.

W następnej części artykułu: Metody przewidywania i obliczania współczynnika MTBF.



Wendy Torell, Victor Avelar
Na podstawie: apc.com

Zapraszamy do skomentowania artykułu

Treść opini 
Popis 

Pozostałe artykuły z tej kategorii