Szybkie przełączanie w przypadku awarii

Systemy NAS

Na rynku znajdują się 2 rodzaje systemów NAS z dwoma kontrolerami o wysokiej dostępności (HA). Jeden z nich pracuje w trybie active-active [aktywny-aktywny, a drugi – ac­tive-standby [aktywny-gotowość]. Powodem, dla którego szefowie IT wybierają systemy NAS z podwójnymi kontrolerami, jest wymóg braku lub ze­rowa tolerancja dla przestojów usługi. Wiele przedsiębiorstw i aplikacji wymaga wysokiej dostępności i wszystko sprowadza się do poziomu ich tolerancji.

Tryb Active-standby (active-passive) zwykle potrzebuje dwóch identycznych serwerów NAS połączonych ze sobą za pomocą kabla Ethernet o przepustowości 1 Gb dla sygnału synchronizacji (Heartbeat) i duplikacji danych. Tryb Active-stand­by wymaga dłuższego czasu przełączania, co oznacza dłuższe RTO (czas odtworzenia procesu). Urządzenie pasywne zawiera kopie lustrzane danych i oczekuje na przejęcie funkcji urządzenia aktyw­nego w sytuacji jego awarii.

Uzasadnienie teoretyczne

Aby wspierać tryb active-active dla podwójnego kontrolera, firma Qsan Technology dużymi nakła­dami opracowała własne silniki wysokiej dostęp­ności – QHE (Qsan HA engine) dla wirtualnych ad­resów IP, globalnej przestrzeni nazw, mechanizmu cache mirroring i modułów transferu wejścia/wyj­ścia na poziomie bloków/plików.

Qsan Technology
qsan zfs

Po uwzględnieniu powyższych kwestii ogólny schemat blokowy budowy wygląda następująco: między dwoma kontrolerami wymieniane są dane transferu pulsowego i komunikacji międzyproce­sowej (mirroring cache, transfer wejścia/wyjścia na poziomie bloków, transfer wejścia/wyjścia na po­ziomie plików) za pomocą magistrali PCI-Express na tylnej ściance.

Właśnie dlatego tryb active-active przewyższa tryb active-standby.

QHE

Jak zmierzyć rzeczywisty czas przełączania w przypadku awarii?

Rzadko się zdarza, by producent NAS ujawnił prawdziwą wartość. Czas przełączania definiu­jemy jako przestój usługi doświadczany na urzą­dzeniach klienckich i aplikacjach. Usługa CIFS w środowisku Windows do generowania obcią­żenia korzysta z typowej aplikacji do tworzenia kopii zapasowych, w sposób ciągły działających jako klient uzyskujący dostęp do NAS. Do moni­torowania połączeń CIFS w Menedżerze Zadań Windows używa się licznika ruchu. Czas prze­łączenia jest mierzony długością płaskiej linii w liczniku ruchu. Zawsze zakładamy najgorszy scenariusz, w którym współdzielony katalog na­leży do kontrolera, który właśnie odłączamy. Po­niższy zrzut ekranowy przedstawia proces prze­łączania trwający około 18 sekund. To oznacza, że RTO wynosi 18 sekund. Funkcja „Ping” powra­ca prawie w tym samym momencie, w którym aplikacja do tworzenia kopii zapasowej wzna­wia kopiowanie plików.

przelaczanie w przypadku awarii

Aplikacja do tworzenia kopii zapasowych będzie próbowała uzyskać dostęp do współdzielonych zasobów NAS do momentu przekroczenia limitu przeznaczonego na to czasu. Domyślny limit wynosi około 60 sekund.

W bieżącym rozwiązaniu active-active na czas przełączenia wpływa kilka czynników, takich jak: czas konfiguracji przeznaczony na procedurę przełączania, liczba puli pa­mięci, liczba jednostek logicznych (LUN) oraz czas montowania/odmontowywania współdzielonych katalogów. Kluczowym czynnikiem jest liczba jednostek logicz­nych (LUN) w systemie NAS. Przetwarzanie zmiany przynależności jednostek logicz­nych między kontrolerami przypomina pchanie ciężkich drzwi, wykonanie tego za­dania wymaga więcej zasobów i czasu. W praktyce mierzymy czas przełączania dla różnych liczb jednostek logicznych, aby dać szerszy pogląd na wzrost czasu przełą­czania w miarę dodawania do systemu coraz większej liczby jednostek logicznych.

Dlaczego ciągle używacie pamięci NAS w konfiguracji active-standby, która wy­maga całych minut na przełączanie? Wasze firmy i aplikacje są w tym czasie nara­żone na ryzyko. Qsan TrioNAS LX HA zapewnia czas przełączenia znacznie poniżej progu 1 minuty, aby dać Wam najlepszą ochronę, jaką można kupić za pieniądze.

wykres-przelaczanie