Media od rana donoszą o globalnej awarii systemów Microsoft i aktualizacji oprogramowania CrowdStrike, która spowodowała zakłócenia i problemy w wielu branżach.

Crowdstrike stosunkowo późno wszedł na rynek dostawców cyberbezpieczeństwa. Wraz z kilkoma innymi amerykańskimi firmami budował przekaz, że jest rozwiązaniem zupełnie nowej generacji i tą marketingową narracją chciał odróżnić się od graczy, którzy już wcześniej działali na rynku. — Poważna awaria, która przydarzyła się dzisiaj pokazuje, że ten dostawca miewa problemy zupełnie podobne do innych graczy. Dostawcy systemów cyberbezpieczeństwa mają bardzo trudne zadanie aktualizowania swoich rozwiązań w coraz bardziej zmieniającym się środowisku — zauważa Paweł Jurek, DAGMA Bezpieczeństwo IT. — Zwykle przed wydaniem każdej aktualizacji prowadzone są drobiazgowe testy. Niestety, jeśli proces testów wewnętrznych nie wyłapie błędu – może dojść do poważnych problemów. Błąd w jednej poprawce zatrzymuje kolejne systemy — tłumaczy.

Ponieważ większość z nich działa już w chmurze w sieci ścisłych wzajemnych połączeń – awaria jednego systemu powoduje awarię kolejnego. I mamy efekt lawiny, który właśnie obserwujemy.

— Zwykle dostawcy, wydając aktualizacje swoich rozwiązań, stosują też strategię “rozpraszania ryzyka”. Poprawka dystrybuowana jest najpierw na małą grupę klientów i sprawdzana jest ilość zgłaszanych problemów. Jeśli ilość zgłoszeń nie rośnie – aktualizacja jest rozsyłana dalej. W przypadku dostawców chmurowych, którzy dostarczają ujednoliconą platformę, takie rozpraszanie ryzyka jest bardziej skomplikowane — mówi Paweł Jurek.

Problemy tego typu przydarzają się dostawcom, jednak zwykle udaje im się ograniczyć “straty” do małego grona klientów, którzy mają problem. W tym wypadku niepokoi skala awarii. Z pewnością cała branża cybersecurity będzie analizować tę sytuację, aby wyciągnąć wnioski dla siebie.

Globalny blackout

Globalna gospodarka coraz bardziej polega na rozwiązaniach informatycznych, które nigdy nie były i nigdy nie będą pozbawione w 100% błędów w oprogramowaniu. Mowa zarówno o potencjalnych błędach, których objawów jeszcze nie zaobserwowano jak i tych niefortunnie, przypadkowo przed momentem wprowadzanych przez dostawców oprogramowania, powodujących w krótkim czasie rozległe i dotkliwe awarie.

Tego typu sytuacja na pewno nie jest ostatnią. Im bardziej polegamy na rozwiązaniach technologicznych, tym częściej możemy spodziewać się, że w pewnych sytuacjach odmówią posłuszeństwa. Biorąc pod uwagę, że duża część gospodarki korzysta i polega w zasadzie na niewielkiej grupie globalnych dostawców oprogramowania i usług, to błąd wprowadzony przez jednego takiego globalnego dostawcę może spowodować szereg rozległych problemów w rozmaitych gałęziach gospodarki.

— Specyfika tak zbudowanego ekosystemu teleinformatycznego sprawia, że podobne sytuacje mogą potencjalnie przekładać się niestety, w skali makro – na funkcjonowanie całych sektorów czy nawet Państw, a w skali mikro – na bieżącą działalność firm, których usługi w części, lub w całości uzależnione są od dostępu do infrastruktury dostawców — mówi Kamil Sadkowski, analityk laboratorium antywirusowego ESET. I dodaje: — Z kolei, gdyby okazało się, że źródłem tej awarii jest atak hakerski, mielibyśmy do czynienia z bardzo drobiazgowo zaplanowaną i precyzyjnie wycelowaną akcją. Na pewno trzeba uważnie przyglądać się tej sytuacji.

Awaria ma wymiar historyczny

Awaria dotknęła miliony stacji roboczych na całym świecie i około 70% firm z listy Fortune 100. Duże awarie prawie nigdy nie przebiegają w ten sposób. — Zazwyczaj ich powodem jest awaria usługi w chmurze lub problem z DNS, a niekiedy przecięcie kabla. Teraz mamy do czynienia z awarią milionów laptopów i stacji roboczych, które w tym samym czasie pokazują niebieski ekran. To sytuacja porównywalna jedynie do epidemii złośliwego oprogramowania, takich jak Wannacry czy Notpetya — zauważa Mikko Hypponen, chief research officer w WithSecure.

W tym wypadku system, który miał zapewnić działanie komputera, wyłączył go. Oprogramowanie zabezpieczające punkty końcowe musi działać w oparciu o dostęp niskiego poziomu, żeby chronić komputer. Od zwykłych aplikacji różni je to, że może spowodować awarię całego systemu. Co gorsza, żadne inne oprogramowanie nie jest aktualizowane tak często, jak oprogramowanie zabezpieczające. — Dlatego też firmy zajmujące się bezpieczeństwem stworzyły bardzo skuteczne procesy zapewniania jakości, testując ogromną liczbę kombinacji oprogramowania, aby uniknąć awarii. W tym wypadku te procesy zawiodły — mówi Mikko Hypponen. Podkreśla tez: — Dlaczego tak się stało? Nie wiadomo. Być może testom poddano inny sterownik niż ten, który ostatecznie dostarczono. Czas pokaże.

Wiemy za to, jak naprawić tę awarię. Niestety jest to proces ręczny: trzeba fizycznie posadzić specjalistę przy klawiaturze każdej maszyny. Większość krytycznych systemów jest już uruchomiona, ale naprawienie każdego systemu dotkniętego awarią zajmie dni, a może nawet tygodnie.

Czytaj też: