Richard Sawyer 2011-04-18

Wymagania przy obsłudze infrastruktury NCPI dla centrów danych nowej generacji (cz. 1)

Wymagania przy obsłudze infrastruktury NCPI dla centrów danych nowej generacji (cz. 1)

Centra danych stanowią znaczną inwestycję dla korporacji i działów IT. To, czy faktycznie osiągają one założoną konstrukcyjnie dostępność, jest uzależnione od kompetencji pracowników obsługi technicznej i ich zdolności. W tym artykule przedstawiono zestawienie według kategorii i ważności wymagań z zakresu obsługi technicznej. Zostało on przygotowany w oparciu o informacje uzyskiwane podczas systematycznych rozmów z klientami i użytkownikami centrów danych.

Od zawsze dostępność centrów danych była uzależniona w głównej mierze od sprawności organizacji usługowych obsługujących infrastrukturę fizyczną sieci o znaczeniu krytycznym (NCPI). Wyjątkowo rzetelne konstrukcje ulegały awariom wyłącznie z powodu błędu ludzkiego, ze strony „ekspertów” od zapewniania ciągłości pracy. Błąd ludzki to przeszło 40–60 % awarii centrów danych, a badania wykazały, że znaczny wkład w tę liczbę wnoszą organizacje usługowe wynajęte właściwie do zapobiegania awariom. Narażenie na awarie związane z obsługą wzrasta w miarę postępu technologii złożoność centrów danych oraz przez brak standardów w projektowaniu i doborze elementów centrum danych. Ten brak standaryzacji prowadzi do większej indywidualizacji wymagań w zakresie obsługi technicznej i ma niekorzystny wpływ na niezawodność, ponieważ do sprawnego utrzymywania i obsługi centrum danych wymaga specyficznych dla niego procedur, procesów i kwalifikacji.

Usługi firm zewnętrznych a wewnętrzna obsługa techniczna
Złożoność problemu niezawodnej obsługi technicznej jest dylematem, przed którym stają kierownicy działów IT. Czy zlecić ją firmom zewnętrznym, czy też realizować środkami wewnętrznymi? Ze względów finansowych w firmach występuje znaczny nacisk na zlecanie firmom zewnętrznym, wśród których obsługa infrastruktury NCPI centrum danych zajmuje czołowe miejsce. Głównym argumentem przemawiającym za takim podejściem jest twierdzenie, że przy znacznej złożoności infrastruktury NCPI specjalistyczną obsługę techniczną może zapewnić wyłącznie personel zewnętrzny, który przeszedł specjalistyczne szkolenia i zdobył rozległe doświadczenie w rozwiązywaniu tych samych problemów na wielu instalacjach NCPI. Dodatkowym argumentem jest fakt, że koszty wymagane do przeszkolenia pracowników obsługi i osiągnięcia przez nich tego samego poziomu biegłości są ogromne, pomimo, że poczucie „własności” w firmie oraz w przypadku wewnętrznych problemów może być silniejsze. Kierownicy centrów danych stosują to podejście nawet do tego stopnia, że zlecają firmom zewnętrznym warstwę obsługi aplikacji w przypadku systemów komputerowych.
W przeprowadzanych przez firmę APC wywiadach z kierownikami działów IT oraz kierownikami ds. nieruchomości powodzenie rozwiązania wykorzystującego usługi zewnętrzne zależy od zdolności firmy do zdobycia kwalifikacji z zakresu obsługi i zapewnienia wysokiej dostępności. Dzięki strategii standaryzacji konstrukcji i elementów infrastruktury NCPI, zawierania umów gwarantujących wysoki poziom usług i partnerskiej współpracy z jednym światowym dostawcą usług zapewniającym obsługę wszystkich elementów i systemów NCPI, firmom udało się osiągnąć cele działalności z wykorzystaniem zewnętrznej siły roboczej.

W tych samych wywiadach firmy, które wybrały strategię z wykorzystaniem środków wewnętrznych, podkreślały znaczenie struktury pomocy technicznej zapewnianej przez dostawców urządzeń i systemów. W rezultacie, nawet decyzja o obsłudze infrastruktury NCPI środkami wewnętrznymi wiąże się z istotnym udziałem środków zewnętrznych. Personel wewnętrzny polega na kwalifikacjach pracowników dostawcy w sytuacjach awaryjnych oraz w tych okresach konserwacyjnych, kiedy możliwości personelu wewnętrznego są ograniczone, czy to poziomem zatrudnienia, czy też kwalifikacjami.
Zdolność do osiągania w centrum danych dostępności jest niewątpliwie uzależniona od możliwości personelu wybranego albo w celu bezpośredniego świadczenia pomocy technicznej w ramach usług firm zewnętrznych albo w celu pośredniego wspomagania wewnętrznej kadry technicznej.

Niedoskonałość obecnych modeli obsługi technicznej
Obecne rozwiązania i możliwości w zakresie obsługi technicznej elementów i systemów infrastruktury NCPI w centrach danych są często niekompletne, kosztowne i niestandardowe. Nie jest to żadnym zaskoczeniem, biorąc pod uwagę tradycyjny model biznesowy obejmujący dostawców dostarczających urządzenia oraz usługi wymagane do ich konserwacji. Do tej pory (i nadal w wielu przypadkach) producenci urządzeń NCPI wytwarzali główne elementy bez stosowania podejścia rozwiązania zintegrowanego, często przy bardzo niskich marżach wynikających z wyboru najniższej oferty. Aby wynagrodzić sobie straty poniesione przy początkowej sprzedaży, koncentrowali się na sprzedaży z wysokimi marżami usług posprzedażnych. Użytkownicy centrów danych często odkrywali, że koszt serwisowania kluczowego elementu infrastruktury NCPI, takiego jak zasilacz UPS, wynosi rocznie 7–10 % ceny zakupu. W rezultacie koszt eksploatacji w okresie 10 lat przekraczał dwukrotnie cenę zakupu, głównie z powodu usług, które były „wprowadzane” przez dostawcę w celu zapewnienia dostępności pożądanej przez kupującego.
Takie niestandardowe podejście do zamawiania urządzeń od różnych dostawców i jest obecnie powszechne. Podejście oparte na najtańszej ofercie, które polega na określeniu zestawu specyfikacji dla kluczowych elementów sprzętowych centrum danych, bez względu na to, czy dany element integruje się z innymi elementami, a następnie zmuszaniu dostawców do obniżania marż w celu doprowadzenia do sprzedaży, sprzyja tradycyjnemu modelowi biznesowemu obsługi technicznej. Bo gdzie indziej dostawca może zdobyć pieniądze, aby utrzymać się w branży?
Takie zachowaniom sprzyjają wewnętrzne procesy projektowe firmy. Ponieważ w procesie wyboru nie bierze się pod uwagę kosztów na przestrzeni całego okresu eksploatacji urządzeń, nacisk kładzie się na osiągnięcie najniższego kosztu inwestycyjnego danego projektu. Koszty obsługi technicznej należą do kosztów działalności, które są planowane oddzielnie. Pomija się przy tym fakt, że nawet koszty inwestycyjne są kosztami działalności ze względu na mechanizm amortyzacji, która musi być finansowana co roku. Koszty amortyzacji łącznie z rocznymi kosztami działalności stanowią rzeczywisty koszt rocznej oraz całkowitej eksploatacji.
Obecnie, to tradycyjne, kosztowne podejście do nabywania i serwisowania infrastruktury NCPI nie jest już konieczne ani pożądane. Istnieją renomowani dostawcy, którzy są w stanie dostarczać zintegrowane systemy NCPI wyposażone w zasilanie, chłodzenie, szafy i systemy monitorowania, które ze sobą współpracują i nie wymagają kosztownej i niestandardowej obsługi technicznej do zapewnienia dostępności koniecznej w przypadku centrum danych. Dzięki standaryzacji elementów, systemów koszty obsługi technicznej można znacznie obniżyć, co przekłada się na niższy całkowity koszt eksploatacji. Więcej informacji na temat obliczania całkowitego kosztu eksploatacji można znaleźć w dokumencie White Paper 6 firmy APC „Określanie całkowitego kosztu posiadania infrastruktury centrum obliczeniowego i serwerowni”.

Obniżanie kosztów obsługi technicznej
Kluczem do obniżenia udziału składnika związanego z kosztami obsługi technicznej w całkowitym koszcie eksploatacji jest wybór przemysłowego dostawcy-partnera, który:

  • redukuje koszty przez obniżenie wymagań serwisowych,
  • wykorzystuje dane eksploatacyjne do poprawy niezawodności,
  • zapewnia procedury konserwacji prewencyjnej.

Takie podejście do obsługi technicznej zmienia omówiony powyżej podstawowy model biznesowy. Konstruując systemy, które z założenia nie mają wymagać intensywnego serwisowania, producent staje się prawdziwym partnerem, który dostarcza klientowi wysoką wartość, zapewniając najniższy całkowity koszt eksploatacji systemów o wysokiej dostępności.

Obniżanie wymagań w zakresie serwisu
Poprzez wykorzystanie standardowych, modułowych elementów, można istotnie ograniczyć potrzebę korzystania z kosztownej, wysoko wykwalifikowanej obsługi technicznej. Tradycyjna metoda serwisowania zasilacza UPS o klasycznej konstrukcji polega na zleceniu usunięcia usterki technikowi na poziomie elementów, dokona on wymiany uszkodzonego tyrystora, tranzystora mocy lub kondensatora. Czynności te wymagają wysokich kwalifikacji, ponieważ istnieje wiele elementów oraz szeroki wachlarz produktów, które nie tylko musi znać technik, lecz dla których musi być także dostępny zapas części zamiennych. Natomiast oparcie konstrukcji na standardowych modułowych elementach sprawia, że technik staje jedynie przed koniecznością odszukania uszkodzonego modułu, jego wymiany oraz sprawdzenia działania po naprawie. Dzięki włączeniu do standardowej konstrukcji odpowiedniej diagnostyki, system poinformuje, który element uległ uszkodzeniu, a także wykona autotesty i wygeneruje raport potwierdzający skuteczność naprawy. Następnie dany moduł, zamiast zostać poddany naprawie na miejscu, zostaje wysłany do fabryki w celu przeprowadzenia gruntownej analizy i naprawy. Wymagania co do kwalifikacji technicznych miejscowych pracowników serwisu ulegają znacznemu obniżeniu, jakość i szybkość naprawy wzrasta, a całkowity koszt serwisu obniża się. Tak naprawdę jeśli producent skonstruował system z wykorzystaniem elementów modułowych posiadających funkcje autodiagnostyki, naprawa może być przeprowadzona przez personel serwisowy klienta bez udziału fabrycznych pracowników serwisowych, co jeszcze bardziej obniża koszty.

Wykorzystywanie danych eksploatacyjnych do poprawy niezawodności Producent, który stosuje standaryzowane, modułowe podejście do konstrukcji jeszcze bardziej obniża koszty serwisowe, zwiększając poziom niezawodności systemów poprzez poprawę jakości. Dzięki przeprowadzaniu napraw modułów w fabryce, a nie w terenie, uzyskuje się istotne źródło danych o uszkodzeniach, które można wykorzystać do identyfikacji problemów z jakością na podstawie pełnej historii eksploatacji danego modułu, a nie pojedynczych raportów o problemach systemowych. Moduł zwrócony do naprawy może zostać gruntownie zbadany z zastosowaniem źródłowej analizy przyczyn awarii, co pozwala klientowi nie tylko dowiedzieć się, co stało się z danym urządzeniem, lecz także producentowi zrozumieć dane uszkodzenie w kontekście wszystkich urządzeń w terenie. Wyciągając wnioski z analizy uszkodzonych w terenie urządzeń zwróconych do fabryki w celu naprawy, producent może z wyprzedzeniem rozwiązywać problemy w innych modułach, które mogą być narażone na ten sam typ awarii i tym samym zmniejszyć prawdopodobieństwo wystąpienia podobnych uszkodzeń u wszystkich swoich klientów. Przyczynia się to do obniżenia kosztów serwisowych przez zwiększenie całkowitej jakości w długiej perspektywie oraz przez rozwiązywanie potencjalnych problemów zanim doprowadzą one do kosztownego przestoju.

Zapewnienie procedur konserwacji prewencyjnej
W branży systemów o znaczeniu krytycznym dawno już ustalono, że koszty działalności można obniżyć, przeciwdziałając awariom zanim one wystąpią. W ten sposób nie tylko bieżący koszt naprawy ulega obniżeniu, lecz ponadto naprawa może zostać zaplanowana w najbardziej dogodnym czasie w celu zminimalizowania wpływu na operacje komputerowe. Wysiłki mające na celu powszechne stosowanie termografii wykorzystującej podczerwień, a także analizę drgań elementów wirujących, takich jak elementy systemów HVAC oraz generatorów, do wykrywania problemów jeszcze przed ich wystąpieniem. Wbudowane w systemy funkcje sygnalizacji prewencyjnej były do tej pory ograniczone, głównie z powodu kosztów zastosowania wymaganych technologii. Obecnie ta sytuacja uległa zmianie i producenci mają możliwość wykorzystania oprogramowania pełniącego funkcje diagnostyczne w sposób ekonomiczny i niezawodny. Elementy wymagające szczególnej konserwacji, takie jak akumulatory, wentylatory, kondensatory oraz filtry powietrza w urządzeniach HVAC mogą standardowo podlegać monitorowaniu i porównywaniu ich bieżącego działania ze specyfikacjami projektowymi celem wykrycia wczesnych oznak uszkodzenia. Alarmy są wysyłane już w momencie wykrycia nieuchronności uszkodzenia, a nie po jego wystąpieniu, co pozwala technikom serwisowym z wyprzedzeniem zareagować na problemy eksploatacyjne. Dzięki integracji tego mechanizmu ze standardowym systemem monitorowania (takim jak SNMP) mogą być wysyłane powiadomienia nie tylko do pracowników serwisowych właściciela, lecz także za pośrednictwem Internetu do pracowników serwisowych producenta obsługujących urządzenia NCPI klienta, umożliwiając tym samym wysłanie techników serwisowych przed, a nie po awarii. Takie rozwiązanie obniża koszty serwisowe dzięki wiedzy na temat rodzaju problemu, jego umiejscowienia oraz zasobów niezbędnych do usunięcia usterki — wszystko to przed faktycznym wystąpieniem awarii, która najprawdopodobniej spowodowałaby znacznie wyższe koszty pośrednie w środowisku centrum danych.

Obok funkcji przewidywania występuje możliwość zapisu historii awarii, a także pełnej historii pracy dowolnego fragmentu urządzenia o znaczeniu krytycznym. Dzięki znajomości historii eksploatacji dostawca usług serwisowych może porównać rzeczywiste parametry w okresie eksploatacji z parametrami oczekiwanymi i zidentyfikować elementy, które wymagałyby wykonania z ulepszeniem, wymiany lub naprawy, przyczyniając się do obniżenia udziału czynnika związanego z kosztami serwisowymi w całkowitym koszcie eksploatacji.



Richard Sawyer

Zapraszamy do skomentowania artykułu

Treść opini 
Popis 

Pozostałe artykuły z tej kategorii