Nauka dla Społeczeństwa

30.04.2024
PL EN
03.08.2014 aktualizacja 03.08.2014

Polacy prowadzą badania nad technologiami rozpoznawania mowy

Technologie rozpoznawania i odszumiania mowy oraz biometrii będą ułatwiały nam korzystanie z usług banków, infolinii, wspierały lekarzy i pracowników sądów, monitorowały media. Pracę nad takimi innowacjami prowadzi m.in. Voicelab – spółka, która powstała w wyniku konkursu Innowator organizowanego przez Fundację na rzecz Nauki Polskiej.

Wdrożenia i rozwój spółki wspomaga Rada Naukowa, a dofinansowuje Narodowe Centrum Badań i Rozwoju.

Jakie produkty powstają w gdańskiej firmie?

INNOWACYJNE USŁUGI DLA BANKOWOŚCI

"Naszym flagowym produktem jest Voicebanking – innowacyjne usługi głosowe dla banków. Dzięki technologiom, które opracowaliśmy, klient może zlecać przelewy głosem w bankowej aplikacji mobilnej, sprawdzać saldo na rachunku i wykonywać wiele innych czynności za pomocą głosu" – mówi Tomasz Szwelnik, który razem z Marcinem Kuropatwińskim wygrał w 2009 r. konkurs FNP i założył firmę prowadzącą badania w zakresie rozpoznawania i odszumiania mowy.

Voicelab wdrożył już swoje rozwiązania w dwóch bankach w Polsce i negocjuje warunki kolejnych wdrożeń. Wkrótce zatem będziemy mogli wypróbować polską technologię w codziennym życiu. Jak będzie to wyglądać?

"Wystarczy powiedzieć np. +Chcę zrobić przelew+ lub +Ile mam forsy na koncie+ czy +Ile wydałem w zeszłym tygodniu+. Nasza technologia rozpoznawania mowy zapewnia szybkie dotarcie do właściwych informacji bez podejmowania wielu czynności w aplikacji. Nasz system rozpoznaje polecenia głosowe. Jest to szybsze i wygodniejsze niż używanie tradycyjnego klikania" – tłumaczy Szwelnik.

Nowe rozwiązania dla bankowości obejmują również biometrię głosową. Dla klientów banku mogą one stanowić duże ułatwienie. Dzięki specjalnemu systemowi nie trzeba będzie dokonywać tradycyjnej autoryzacji, oczekując długo na infolinii na zgłoszenie się konsultanta, wystarczy biometryczne hasło głosowe. Dzięki metodom biometrii głosowej aplikacja bezbłędnie rozpozna cechy głosu zarejestrowanego klienta i pozwoli mu na dokonanie wybranej operacji.

Jak zaznacza Szwelnik, taka metoda może być bezpieczniejsza od klasycznych, opartych często na danych z dowodu osobistego. Te dane bardzo łatwo zdobyć, trudniej natomiast podrobić cechy biometryczne związane z budową traktu głosowego człowieka. Jeżeli system „zna” próbkę głosu, to autoryzuje ją błyskawicznie i użytkownik od razu może korzystać z aplikacji bankowej.

Voicebanking, czyli obsługa klienta za pomocą rozpoznawania i syntezy mowy, to technologia gotowa do komercjalizacji. W rozpoznawaniu mowy i biometrii firma wdraża własne rozwiązania, natomiast w zakresie syntezy mowy współpracuje ze światowym liderem – również polską firmą Ivona Software.

NISZE W TELEKOMUNIKACJI, MEDYCYNIE, SĄDOWNICTWIE, MEDIACH

Opracowany przez Voicelab system rozpoznawania mowy ma zastosowanie również w infolinii telefonicznej. Dzięki rozpoznawaniu głosu można bez naciskania przycisków można poprosić o połączenie z wybranym działem lub też wykonać żądaną funkcję.

"Jest to sporym udogodnieniem zwłaszcza dla osób, dla których barierą jest obsługa za pomocą klikania. Nasze rozwiązanie to propozycja dla dużych firm, korporacji, które obsługują bardzo wielu klientów i chcą zautomatyzować proces jego obsługi. Dzięki temu użytkownik ma możliwość łatwego dostępu do informacji nawet przez 24 godziny na dobę" – zapewnia Szwelnik.

Wyjaśnia, że ogólne informacje są przekazywane przez system dialogu – rozpoznawania i syntezy mowy. System rozpoznawania mowy jest również stosowany do wyszukiwania słów kluczowych w rozmowach telefonicznych. Analiza rozmów dostarcza informacji, które wymagałyby przesłuchania wielu tysięcy godzin nagrań.

Z omawianych technologii może również korzystać sektor obronny, medyczny, sądownictwo, media, telekomunikacja… Transkrypcja medyczna to zamiana mowy na tekst, z uwzględnieniem specjalistycznego języka stosowanego przy opisie badań lekarskich. Technologia umożliwia rozpoznawanie wypowiedzi lekarzy, którzy opisują swoje diagnozy i wykonywanie określonych procedur medycznych.

„Lekarz będzie mógł przesłać nagranie do centrum transkrypcji, po czym zostanie ono odesłane i będzie nadawało się do dalszego użytkowania jako zapis tekstowy. Na świecie jest to powszechnie stosowane przez centra medyczne, lekarze są wyręczani w rutynowych czynnościach, technologie ich wspierają. Na rynku polskim będzie to innowacja” – zapowiada Szwelnik.

Zapisywanie mowy jest z pewnością przydatne w sądownictwie. Obecnie sędziowie dyktują postanowienia, wyroki i ich uzasadnienia stenotypistom, również zeznania są zapisywane ręcznie. Kancelarie prawne pracują z dużą ilością nagrań z rozpraw, które trzeba następnie odsłuchać. Automatyzacja tych czynności byłaby rewolucyjna.

„Planujemy takie wdrożenia. Pojawia się tutaj jednak utrudnienie związane z jakością nagrań z rozpraw na salach sądowych. Najczęściej towarzyszy im wiele dodatkowych zjawisk akustycznych, co zakłóca w sposób znaczący rozpoznawanie mowy. Dobrze byłoby, aby w takich nagraniach zostały użyte specjalistyczne mikrofony kierunkowe. Wymaga to odpowiedniego sprzętu, który my dostarczamy. Ponadto specjalizujemy się w budowaniu modelu akustycznego uwzględniającego różne warunki akustyczne. Przed nami jeszcze sporo wyzwań” – przyznaje rozmówca PAP.

Możliwe jest również zaadaptowanie systemu rozpoznawania mowy dla potrzeb mediów. System umożliwia transkrypcję z zapisu nagrań programów telewizyjnych czy radiowych. Kolejny aspekt to monitorowanie kampanii marketingowych.

"W reklamie zwykle używa się hasła lub nazwy produktowej. Jeśli osoby dzwonią w sprawie określonego produktu, można zmierzyć ilość rozmów, jakie odbyły się w tej sprawie i ocenić, jaka jest skuteczność kampanii. Taką analizą zajmuje się nasze oprogramowanie do rozpoznawania słów kluczowych w rozmowach telefonicznych" – mówi Szwelnik.

Jest to przydatne również w obsłudze call center. System potrafi „wyłapywać” słowa podczas rozmów, które powinny być używane lub są zabronione w rozmowach.

„Możemy w ten sposób wykrywać czy klient dzwoni w sprawie reklamacji, rezygnacji z umowy, a może straszy firmę wezwaniem do sądu. System pozwala na wczesnym etapie wykrywać takie słowa. Wówczas rozmowy zostają przekierowane do konsultantów o większym doświadczeniu dzięki czemu można rozładować napięcie, które powstało w rozmowie” – opisuje współtwórca innowacji.

PAP – Nauka w Polsce, Karolina Olszewska

kol/ agt/

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Copyright © Fundacja PAP 2024