Szybkie przełączanie w przypadku awarii
Systemy NAS
Na rynku znajdują się 2 rodzaje systemów NAS z dwoma kontrolerami o wysokiej dostępności (HA). Jeden z nich pracuje w trybie active-active [aktywny-aktywny, a drugi – active-standby [aktywny-gotowość]. Powodem, dla którego szefowie IT wybierają systemy NAS z podwójnymi kontrolerami, jest wymóg braku lub zerowa tolerancja dla przestojów usługi. Wiele przedsiębiorstw i aplikacji wymaga wysokiej dostępności i wszystko sprowadza się do poziomu ich tolerancji.
Tryb Active-standby (active-passive) zwykle potrzebuje dwóch identycznych serwerów NAS połączonych ze sobą za pomocą kabla Ethernet o przepustowości 1 Gb dla sygnału synchronizacji (Heartbeat) i duplikacji danych. Tryb Active-standby wymaga dłuższego czasu przełączania, co oznacza dłuższe RTO (czas odtworzenia procesu). Urządzenie pasywne zawiera kopie lustrzane danych i oczekuje na przejęcie funkcji urządzenia aktywnego w sytuacji jego awarii.
Uzasadnienie teoretyczne
Aby wspierać tryb active-active dla podwójnego kontrolera, firma Qsan Technology dużymi nakładami opracowała własne silniki wysokiej dostępności – QHE (Qsan HA engine) dla wirtualnych adresów IP, globalnej przestrzeni nazw, mechanizmu cache mirroring i modułów transferu wejścia/wyjścia na poziomie bloków/plików.
Po uwzględnieniu powyższych kwestii ogólny schemat blokowy budowy wygląda następująco: między dwoma kontrolerami wymieniane są dane transferu pulsowego i komunikacji międzyprocesowej (mirroring cache, transfer wejścia/wyjścia na poziomie bloków, transfer wejścia/wyjścia na poziomie plików) za pomocą magistrali PCI-Express na tylnej ściance.
Właśnie dlatego tryb active-active przewyższa tryb active-standby.
Jak zmierzyć rzeczywisty czas przełączania w przypadku awarii?
Rzadko się zdarza, by producent NAS ujawnił prawdziwą wartość. Czas przełączania definiujemy jako przestój usługi doświadczany na urządzeniach klienckich i aplikacjach. Usługa CIFS w środowisku Windows do generowania obciążenia korzysta z typowej aplikacji do tworzenia kopii zapasowych, w sposób ciągły działających jako klient uzyskujący dostęp do NAS. Do monitorowania połączeń CIFS w Menedżerze Zadań Windows używa się licznika ruchu. Czas przełączenia jest mierzony długością płaskiej linii w liczniku ruchu. Zawsze zakładamy najgorszy scenariusz, w którym współdzielony katalog należy do kontrolera, który właśnie odłączamy. Poniższy zrzut ekranowy przedstawia proces przełączania trwający około 18 sekund. To oznacza, że RTO wynosi 18 sekund. Funkcja „Ping” powraca prawie w tym samym momencie, w którym aplikacja do tworzenia kopii zapasowej wznawia kopiowanie plików.
Aplikacja do tworzenia kopii zapasowych będzie próbowała uzyskać dostęp do współdzielonych zasobów NAS do momentu przekroczenia limitu przeznaczonego na to czasu. Domyślny limit wynosi około 60 sekund.
W bieżącym rozwiązaniu active-active na czas przełączenia wpływa kilka czynników, takich jak: czas konfiguracji przeznaczony na procedurę przełączania, liczba puli pamięci, liczba jednostek logicznych (LUN) oraz czas montowania/odmontowywania współdzielonych katalogów. Kluczowym czynnikiem jest liczba jednostek logicznych (LUN) w systemie NAS. Przetwarzanie zmiany przynależności jednostek logicznych między kontrolerami przypomina pchanie ciężkich drzwi, wykonanie tego zadania wymaga więcej zasobów i czasu. W praktyce mierzymy czas przełączania dla różnych liczb jednostek logicznych, aby dać szerszy pogląd na wzrost czasu przełączania w miarę dodawania do systemu coraz większej liczby jednostek logicznych.
Dlaczego ciągle używacie pamięci NAS w konfiguracji active-standby, która wymaga całych minut na przełączanie? Wasze firmy i aplikacje są w tym czasie narażone na ryzyko. Qsan TrioNAS LX HA zapewnia czas przełączenia znacznie poniżej progu 1 minuty, aby dać Wam najlepszą ochronę, jaką można kupić za pieniądze.