Wystarczy 0,77 sekundy, aby przejąć kontrolę nad asystentem głosowym

Asystenci głosowi tacy jak Siri, Google Assistant, Cortana czy Amazon Alexa od dawna ułatwiają nam życie codzienne. Dzięki nim sprawniej wykonujemy połączenia głosowe, wysyłamy wiadomości, znajdujemy trasy podroży czy wyszukujemy informacje. Szacuje się, że w samych Stanach Zjednoczonych korzysta z nich 120 milionów osób[1]. Okazuje się jednak, że za pomocą polecenia głosowego można nie tylko skorzystać z usługi, ale również dokonać włamania i kradzieży. Proces zajmuje mniej niż sekundę, a właściciel urządzenia, może się nawet nie zorientować, że padł ofiarą przestępstwa.

Naukowcy z University of Texas w San Antonio (UTSA) i University of Colorado Colorado Springs (UCCS), odkryli, że mikrofony cyfrowych asystentów mogą reagować na fale podobne do ultradźwiękowych odtwarzanych z głośnika. Te fale, niesłyszalne dla ludzi, mogą być wykorzystane do wydawania poleceń np. wyłączenia alarmu lub otwarcia drzwi wejściowych zabezpieczonych inteligentnym zamkiem.

Taki atak, nazwany NUIT czyli Near-Ultrasound Inaudible Trojan może przybrać dwie formy:

  1. Urządzenie jest zarówno źródłem, jak i celem ataku: wystarczy, że użytkownik odtworzy przygotowany przez cyberprzestępców plik na swoim telefonie, może to być przesłane nagranie albo filmik z social mediów. Ukryta w nim komenda spowoduje, że urządzenie wykona określoną czynność np. wyśle wiadomość tekstową lub swoja lokalizację.
  2. Atak ten jest przeprowadzany przez inne urządzenie z głośnikiem. Nasze urządzenie wyposażone w mikrofon np. telefon czy inteligentny głośnik odbiera polecenie np. z komputera cyberprzestępcy.

Jak może przebiegać atak NUIT?

Wyobraźmy sobie, że ktoś np. ogląda webinarium na Teams lub Zoom. Inny użytkownik może w pewnym momencie wyłączyć wyciszenie swojego mikrofonu i odtworzyć dźwięk, który zostanie następnie odebrany przez telefon pierwszej osoby. W rezultacie urządzenie może wykonać polecenie, np. odwiedzić niebezpieczną, infekująca złośliwym oprogramowaniem stronę internetową.

W drugim scenariuszu ktoś może np.  oglądać filmy z YouTube na telefonie i to wystarczy, aby urządzenie wykonało zaprogramowaną przez przestępcę, niebezpieczną czynność. Ten atak nie wymaga żadnej konkretnej akcji ze strony użytkownika, a to czyni go wyjątkowo groźnym.

Co jest potrzebne do przeprowadzanie ataku?

Niestety bardzo niewiele. Aby NUIT zadziałał wystarczy, że głośnik, z którego jest uruchamiany, będzie ustawiony powyżej pewnego poziomu głośności, a komenda będzie trwać nie dłużej niż 0,77 sekundy

Aby atak się powiódł ofiara musi mieć włączoną usługę asystenta głosowego. Biorąc pod uwagę fakt, że aż 64% użytkowników deklaruje, że zdarzyło im się uruchomić tę funkcję przypadkowo przynajmniej raz w ciągu ostatniego miesiąca[2], jest się czego bać.

– Ataki na asystentów głosowych to zupełnie nowy rodzaj zagrożenia, na który użytkownicy nie są przygotowani. O ile wiele osób wie już, że nie należy klikać w linki czy pobierać aplikacji nieznanego pochodzenia, nikt z nas nie martwi się, że słuchając muzyki czy oglądając film z potwierdzonego źródła zostaniemy zaatakowani… dźwiękiem. I to takim, którego nie jesteśmy w stanie usłyszeć. Ataki typu NUIT poszerzają również potencjalne pole działania przestępców. Włamując się do asystenta głosowanego można nie tylko dokonywać przestępstw w internecie, ale również w realnym świecie np. uzyskiwać dostęp do mieszkania czy garażu – komentuje Beniamin Szczepankiewicz, starszy specjalista ds. cyberbezpieczeństwa ESET i dodaje – nietypowe ataki wymagają od nas nietypowej obrony. Ciekawostką jest, że jedną z metod obrony przed takim atakiem, mogą być słuchawki. Kiedy odtwarzamy nagranie z ich wykorzystaniem, dźwięk nie dociera do mikrofonu naszego urządzenia.

Dobrą wiadomością jest fakt, że NUIT został odkryty przez naukowców i jak na razie nie ma doniesień o tym, by ktokolwiek wykorzystywał go w celach przestępczych lub w formie szeroko rozpowszechnionych żartów. Należy się jednak spodziewać, że prędzej czy później cyberprzestępcy zainteresują się nim. Dlatego już teraz warto wiedzieć jak się chronić.

Każdy użytkownik powinien skonfigurować swojego asystenta tak, aby działał tylko w reakcji na głos właściciela. Część producentów smart głośników pozwala wykonywać akcje związane z bezpieczeństwem domu, dopiero po autoryzacji np. twarzą lub odciskiem palca na telefonie. Można również rozważyć wyłączanie asystenta głosowego, gdy nie jest potrzebny. Należy pamiętać, że zaatakowane mogą być różne urządzenia z dostępem do internetu – nie tylko telefony.

Warto również, od czasu do czasu sprawdzać telefon pod kątem przypadkowych aktywacji mikrofonu. Zarówno urządzenia z Androidem, jak i iOS wyświetlają aktywację mikrofonu, zwykle sygnalizując ją zieloną kropką na Androidzie i brązową kropką na iOS w górnej części ekranu. Można również rozważyć sprawdzenie uprawnień aplikacji pod kątem dostępu do mikrofonu, nie każda z nich musi przecież słyszeć otoczenie.

Dla własnego bezpieczeństwa należy również upewnić się, że mamy zainstalowane wszystkie potrzebne aktualizacje oprogramowania, włączone uwierzytelnianie dwuskładnikowe na wszystkich kontach online i korzystamy z renomowanego oprogramowania zabezpieczającego na każdym urządzeniu z dostępem do internetu.

[1] https://bloggingwizard.com/voice-search-statistics/

[2] https://bloggingwizard.com/voice-search-statistics/