Głos – interfejs użytkownika przyszłości?

Głos – interfejs użytkownika – telefon google

Niezależnie od tego, czy jest to Amazon, Apple, Google czy Microsoft, każdy z tych gigantów branży technologicznej chce zdobyć pierwsze miejsce na wysoce konkurencyjnym rynku asystentów głosowych. Roczny wzrost sprzedaży jasno wskazuje, że ta technologia staje się dla nas coraz istotniejsza. Przewiduje się nawet, że technologia mowy stanie się interfejsem przyszłości. Czy wciąż zatem będziemy potrzebować fizycznych urządzeń wejściowych do obsługi komputera lub innych urządzeń elektronicznych i jakie wyzwania technologia asysty głosowej ma jeszcze do pokonania?

Historia i rozwój interfejsu użytkownika

Przypatrując się bliżej ewolucji interfejsów użytkownika komputerów i aplikacji, jasnym jest, że sposób, w jaki używamy urządzeń cyfrowych jest coraz bardziej w zgodzie z naszymi ludzkimi interakcjami. Początkowo komputery były na tyle abstrakcyjne, że mogły być obsługiwane jedynie przez ekspertów. Ten problem już nie istnieje, od kiedy wprowadzono kompaktowe systemy PC. Przykładowo pojawienie się pierwszej myszki komputerowej w 1968 r. udostępniło komputer stacjonarny znacznie szerszej publiczności.

Aktualny rozwój ekranów dotykowych idzie krok naprzód: w tym momencie reagują już one na naturalne gesty jak pisanie czy wycieranie. Logiczne jest, że następnym krokiem w coraz bardziej intuicyjnym używaniu i kontroli urządzeń elektronicznych i aplikacji jest mowa. Rezultatem będzie mieszanka rozszerzonej rzeczywistości (AR), gestów i komend głosowych, by jeszcze łatwiej sterować urządzeniami.

Wyzwania technologii głosowej

Wyzwanie 1: Obawy dotyczące bezpieczeństwa

Mówienie, zamiast wprowadzania danych do urządzenia za pomocą ekranu dotykowego, jest po prostu o wiele bardziej intuicyjne i zwyczajnie szybsze dla konsumenta. Użytkownikom jednak pozostaje dylemat do rozwiązania. Z jednej strony istnieje pragnienie, by cyfrowy asystent oferował realną pomoc i ulgę w codziennym życiu, ale do tego musi dobrze użytkownika rozumieć. Aby to jednak zapewnić, użytkownik musi ujawnić informacje o sobie, by asystent głosowy mógł ich użyć do uczenia się za pomocą sztucznej inteligencji.

Wielu użytkowników jest niechętnych do dzielenia się tymi informacjami ze względu na obawy związane z bezpieczeństwem. Potwierdziło to badanie przeprowadzone w marcu 2019 r. przez OnePoll na zlecenie reichelt elektronik. Nawet wśród tych, którzy korzystają już z asystenta głosowego, znaczna część (50%) obawia się o bezpieczeństwo, a aż 62% badanych jest zaniepokojonych sposobem przechowywania ich danych. Żaden z obecnie dostępnych modeli nie jest w stanie wyeliminować tych obaw.

Wyzwanie 2: Przezwyciężenie uprzedzenia ze względu na płeć

Alexa, Siri, Cortana – wszyscy najbardziej znani i popularni asystenci głosowi mają damski głos i są postrzegane jako kobiety. W swojej roli – wiecznie cierpliwych, poddanych pomocnic, które bez pytania wykonują rozkazy, wzmacniają przestarzały podział ról – jak wykazał to niedawny raport UNESCO. Jako szczególnie ryzykowne podkreśla się to, że asystenci głosowi zachowują się zazwyczaj pobłażliwie, a nawet zalotnie w odpowiedzi na aluzje seksualne lub obelgi.

W tym miejscu wychodzi na jaw, że sztuczna inteligencja w żadnym wypadku nie jest neutralna, a pod silnym wpływem danych, na których się ją rozwija. Przez to ludzkie uprzedzenia i dyskryminacja są przekierowywane na cyfrowego pomocnika. Producenci stoją zatem przed ogromnym wyzwaniem zredukowania w swoich systemach istniejącego uprzedzenia ze względu na płeć, by zapewnić jakość i dobre doświadczenie wszystkim użytkownikom.

Wyzwanie 3: Używanie w przestrzeni publicznej

Kolejną trudnością, o której nie mówi się wystarczająco często, to używanie interfejsów głosowych  w przestrzeni publicznej, jak w pociągach czy restauracjach. W takim przypadku przechodni mogą podsłuchać dyktowane treści, przez co prywatne informacje trafiają nie tylko do adresata, ale do wszystkich obecnych w bezpośrednim otoczeniu. Kolejną kwestią, która odgrywa rolę we wdrażaniu głosowego trybu wprowadzania danych, jest zanieczyszczenie hałasem. Przykładowo, gdyby cały przedział w pociągu rozmawiał ze swoimi asystentami głosowymi zamiast stukania i przesuwania po smartfonach lub tabletach, ogromnie wzrósłby poziom hałasu.

Wyzwanie 4: Rozpoznawanie mowy

W ostatnich latach rozwój systemów mowy polepszył się kilkukrotnie i producenci pracują w pocie czoła, by nieustannie pchać technologię do przodu. Niemniej jednak wskaźnik rozpoznawania słów wciąż nie sięga 100%.

Ponadto, pojawiają się trudności kiedy osoba próbująca skomunikować się z asystentem głosowym używa dialektu. To zjawisko potwierdzają konsumenci. 39% badanych przyznaje, że nie są przekonani, że zostali poprawnie zrozumieni przez system.

Technologia głosowa jest przede wszystkim używana w smart domach i samochodach:

Nawet jeśli przewiduje się użycie asystentów językowych jako interfejsu użytkownika, nadal istnieje kilka przeszkód do pokonania, aby użytkownik postrzegał je jako prawdziwy atut. Niemniej jednak systemy głosowe są coraz lepsze i zdobywają coraz więcej sfer życia.

Sporą przewagą nad pisaniem jest fakt, że ręce są swobodne. Dzięki temu głosowe wprowadzanie danych było do tej pory wykorzystywane przede wszystkim w sektorze smart domów. Kolejnym zdobywanym terytorium jest samochód. Tu korzyści są oczywiste: kierowca może podawać instrukcje jednocześnie trzymając ręce wciąż na kierownicy.

Z tego można wywnioskować, że asystenci głosowi obecnie zyskują przewagę wszędzie tam, gdzie jesteśmy zajęci innymi sprawami lub potrzebujemy obu rąk do danej aktywności. Funkcjonowanie technologii to niemal nieistotna sprawa. Mało prawdopodobne, że w niedalekiej przyszłości całkowicie zastąpią one smartfon, ale mają potencjał, by zasadniczo zmienić nasze podejście do technologii.

Frank Gerwarth, product manager systemów asysty głosowej w reichelt elektronik