Tradycyjne metodologie monitorowania środowiska centrum danych nie są już wystarczające. Biorąc pod uwagę pojawianie się nowych technologii, takich jak serwery kasetowe, które zwiększają zapotrzebowanie na chłodzenie, a także nowych przepisów prawnych, takich jak ustawa Sarbanes-Oxley, nakładających wyższe wymagania w zakresie bezpieczeństwa danych, środowisko fizyczne w centrum danych musi być dokładniej obserwowane. Choć istnieją dobrze znane protokoły monitorowania urządzeń fizycznych, takich jak systemy UPS, klimatyzatory pomieszczeń komputerowych i systemy przeciwpożarowe, istnieje pewna klasa rozproszonych punktów monitorowania, które są często pomijane. W tym artykule opisano tę klasę zagrożeń, zaproponowano kilka podejść dotyczących wdrażania urządzeń monitorujących, a także przedstawiono najlepsze sposoby wykorzystania zebranych danych w celu ograniczenia czasu przestoju.Tradycyjne metodologie monitorowania środowiska centrum danych nie są już wystarczające. Biorąc pod uwagę pojawianie się nowych technologii, takich jak serwery kasetowe, które zwiększają zapotrzebowanie na chłodzenie, a także nowych przepisów prawnych, takich jak ustawa Sarbanes-Oxley, nakładających wyższe wymagania w zakresie bezpieczeństwa danych, środowisko fizyczne w centrum danych musi być dokładniej obserwowane. Choć istnieją dobrze znane protokoły monitorowania urządzeń fizycznych, takich jak systemy UPS, klimatyzatory pomieszczeń komputerowych i systemy przeciwpożarowe, istnieje pewna klasa rozproszonych punktów monitorowania, które są często pomijane. W tym artykule opisano tę klasę zagrożeń, zaproponowano kilka podejść dotyczących wdrażania urządzeń monitorujących, a także przedstawiono najlepsze sposoby wykorzystania zebranych danych w celu ograniczenia czasu przestoju.
Zbieranie danych z czujników
Kolejnym krokiem po wybraniu i rozmieszczeniu czujników jest gromadzenie i analizowanie danych odbieranych przez czujniki. Zamiast przesyłać wszystkie dane z czujników bezpośrednio do centralnego punktu gromadzenia danych, zwykle lepiej jest utworzyć punkty zbiorcze (agregatory) rozmieszczone w centrum danych, które zapewniają możliwości alarmowania i powiadamiania dla każdego takiego punktu. Takie rozwiązanie pozwala nie tylko wyeliminować ryzyko awarii pojedynczego, centralnego punktu gromadzenia danych, ale zapewnia także możliwość monitorowania zdalnych serwerowni i pomieszczeń telekomunikacyjnych bezpośrednio na miejscu. Agregatory komunikują się z centralnym systemem monitorowania za pośrednictwem sieci IP (Rysunek 2).
Poszczególne czujniki nie są zwykle podłączone bezpośrednio do sieci IP. Agregatory interpretują dane z czujników i wysyłają alarmy do systemu centralnego i/lub bezpośrednio do listy powiadamiania (patrz następny punkt). Taka rozproszona architektura monitorowania znacząco obniża liczbę wymaganych połączeń sieciowych, a także pozwala zredukować ogólny koszt systemu i nakłady związane z zarządzaniem. Agregatory są zwykle przypisane do fizycznych obszarów w centrum danych i zbierają dane z czujników znajdujących się na ograniczonym obszarze, aby uprościć ich okablowanie.
„Inteligentne” działanie
Czujniki dostarczają dane surowe, ale równie ważne jest interpretowanie tych danych w celu alarmowania, powiadamiania i rozwiązywania problemów. Ponieważ strategie monitorowania stają się coraz bardziej zaawansowane, a w poprawnie monitorowanych centrach danych pojawia się coraz więcej czujników, bardzo ważną kwestią staje się „inteligentne” przetwarzanie tej potencjalnie dużej ilości danych. Najbardziej efektywną metodą gromadzenia i analizowania danych z czujników oraz podejmowania odpowiednich działań jest zastosowanie agregatorów, które przedstawiono w poprzednim punkcie.
Bardzo ważna jest możliwość filtrowania, korelacji i oceniania danych w celu ustalenia najlepszego sposobu postępowania w przypadku wystąpienia zdarzenia przekroczenia wartości granicznych. Skuteczne działanie oznacza zaalarmowanie właściwych osób przy użyciu właściwej metody i z dostarczeniem właściwych informacji. Działanie jest podejmowane na jeden z trzech sposobów:
• Alarmowanie w przypadku sytuacji przekroczenia wartości granicznych, które mogłyby zagrozić poszczególnym urządzeniom, szafom lub całemu centrum danych.
• Automatyczne działanie na podstawie określonych alarmów i progów.
• Analiza i raportowanie w celu umożliwienia dokonania ulepszeń, optymalizacji i pomiarów
awarii.
Alarmowanie
Podczas ustawiania alarmów należy określić trzy elementy: progi alarmowe — wartości, przy których powinny zostać wywołane alarmy; metody alarmowania — sposób wysyłania alarmu i osoba docelowa; przekazywanie odpowiedzialności — określenie, czy pewne typy alarmów wymagają innego poziomu odpowiedzialności w celu rozwiązania problemu.
Progi alarmowe — dla każdego czujnika należy ustalić akceptowalne warunki robocze, a następnie skonfigurować progi, po przekroczeniu których zostaną wygenerowane alarmy. Najlepiej, gdyby system monitorowania miał możliwość konfigurowania kilku progów dla czujnika i zapewniał alarmowanie na poziomie informacyjnym, ostrzeżenia, krytycznym i awarii. Oprócz progów w postaci pojedynczych wartości powinny być także dostępne warunki alarmowe, takie jak przekroczenie progu przez określony czas, szybkość przyrostu lub szybkość spadku. W przypadku temperatury alarmowanie o szybkości zmiany wartości zapewnia szybszą sygnalizację awarii niż monitorowanie chwilowej wartości temperatury.
Progi należy ustawiać starannie, aby zapewnić ich maksymalną przydatność. Mogą być dostępne różne progi, które powodują zgłoszenie innych alarmów w zależności od ważności zdarzenia. Na przykład zdarzenie przekroczenia progu wilgotności może powodować wysłanie wiadomości e-mail do administratora IT, podczas gdy czujnik dymu może automatycznie alarmować straż pożarną. Podobnie, poszczególne poziomy progów mogą powodować wybranie innej ścieżki przekazywania odpowiedzialności. Na przykład zdarzenie nieuprawnionego dostępu do szafy może zostać przekazane do administratora IT, podczas gdy zdarzenie siłowego wtargnięcia może zostać zgłoszone dyrektorowi działu IT.
Progom należy globalnie ustawić wartości domyślne, a następnie dostrajać indywidualnie na podstawie specyfikacji sprzętu IT i miejsca zamontowania czujnika w stosunku do położenia sprzętu (na przykład czujnik znajdujący się w pobliżu zasilacza serwera powinien wyzwalać alarm przy wyższej wartości niż czujnik umieszczony w pobliżu wlotu powietrza do serwera). Tabela 4 przedstawia zalecane domyślne progi dla temperatury i wilgotności na podstawie normy ASHRAE TC9.9. Poza tymi parametrami, ważne jest również monitorowanie szybkości zmiany temperatury. Zmiana temperatury z szybkością 5,6°C w ciągu 5 minut wskazuje na prawdopodobną awarię klimatyzatora CRAC.
Tabela 4 — Zalecane progi dla czujników temperatury i wilgotności
Czujnik | Próg wysoki | Próg niski |
---|---|---|
Temperatura powietrza | 25°C | 20°C |
Wilgotność | 55% wilgotności względnej | 40% wilgotności względnej |
Metody alarmowania — informacje o alarmach można przekazywać na wiele sposobów, na przykład za pośrednictwem poczty elektronicznej, wiadomości tekstowych SMS, pułapek SNMP i wiadomości wysyłanych do serwerów HTTP. Ważne jest, aby systemy alarmowania były elastyczne i konfigurowalne, żeby możliwe było pomyślne dostarczenie właściwej ilości informacji do wyznaczonego odbiorcy. Powiadomienia o alarmach powinny zawierać takie informacje, jak zdefiniowana przez użytkownika nazwa czujnika, lokalizacja czujnika oraz data i godzina alarmu.
Przekazywanie odpowiedzialności — niektóre alarmy wymagają natychmiastowej uwagi. Inteligentny system monitorowania powinien mieć możliwość przekazania konkretnych alarmów do osób na wyższym poziomie w hierarchii, jeśli problem nie zostanie rozwiązany w określonym czasie. Przekazywanie odpowiedzialności umożliwia rozwiązywanie problemów w odpowiednim czasie — zanim małe problemy staną się dużym kłopotem.
Poniżej przedstawiono kilka przykładów przydatnych i mniej przydatnych alarmów:
Próg przekroczony przez czujnik temperatury nr 48 — alarm nie jest bardzo przydatny, ponieważ nie wskazuje lokalizacji czujnika nr 48.
Serwer internetowy X jest zagrożony przegrzaniem — ten alarm jest bardziej przydatny, ponieważ identyfikuje konkretny serwer.
Czujnik drzwi został uaktywniony — alarm nie jest bardzo przydatny, ponieważ nie zidentyfikowano konkretnych drzwi.
Drzwi X w lokalizacji Y zostały otwarte i zarejestrowano zdjęcie osoby otwierającej drzwi — alarm jest bardzo przydatny, ponieważ identyfikuje drzwi i ich położenie oraz zawiera zdjęcie zdarzenia.