Mamy już słuchawki z redukcją szumów, które są świetne i niezastąpione w wygłuszaniu niepotrzebnych dźwięków, jednak przez cały czas wyzwaniem pozostaje stworzenie takich, które dopuszczają wybrane dźwięki z otoczenia, wymazując pozostałe. Amerykanie są na dobrej drodze, by je stworzyć.
Są słuchawki, które podczas rozmowy automatycznie dostosowują poziom dźwięku do użytkowników, ale kontrola nad tym, kogo się słucha, przez cały czas pozostaje niewielka. 14 maja zespół naukowców z University of Washington (USA) zaprezentował w Honolulu (Hawaje, USA), na konferencji ACM CHI poświęconej czynnikom ludzkim w systemach obliczeniowych, swoje najnowsze odkrycie. Amerykanie opracowali system sztucznej inteligencji, który pozwala „zapisać/zapamiętać” daną osobę mówiącą, gdy użytkownik noszący słuchawki popatrzy na nią przez 3-5 sekund. System „Target Speech Hearing” (TSH) usuwa z otoczenia wszystkie inne dźwięki i odtwarza wyłącznie głos „zapisanego/zapamiętanego” mówcy w czasie rzeczywistym, choćby gdy słuchacz porusza się w hałaśliwych miejscach i nie jest już zwrócony w stronę mówcy.
– Mamy tendencję do myślenia o sztucznej inteligencji jako o internetowych chatbotach, które odpowiadają na pytania – powiedział starszy autor badania prof. Shyam Gollakota. – Ale w tym projekcie opracowujemy sztuczną inteligencję, aby modyfikować percepcję słuchową każdego, kto nosi słuchawki, biorąc pod uwagę jego preferencje. Dzięki naszym urządzeniom można wyraźnie słyszeć jednego mówcę, choćby jeżeli znajduje się w hałaśliwym otoczeniu, w którym rozmawia wiele innych osób – wyjaśnił.
Aby skorzystać z systemu TSH, osoba używająca słuchawek wyposażonych w mikrofony naciska odpowiedni przycisk i kieruje głowę na tego, kto mówi i kogo chce słyszeć. Fale dźwiękowe z głosu mówcy powinny dotrzeć jednocześnie do mikrofonów po obu stronach zestawu słuchawkowego (margines błędu wynosi 16 stopni). Następnie sygnał jest wysyłany do komputera pokładowego w słuchawkach, gdzie oprogramowanie do uczenia maszynowego zapamiętuje wzorce wokalne. System wychwytuje głos mówcy i odtwarza słuchaczowi, choćby gdy obie osoby się poruszają.
Zespół przetestował swój system na 21 osobach, które czystość głosu zarejestrowanego mówcy oceniły prawie dwa razy wyżej niż docierający do nich dźwięk niefiltrowany.
Prace zespołu poprzedzone były wcześniejszymi badaniami nad „semantycznym słyszeniem”. Dzięki nim użytkownik mógł wybierać określone klasy dźwięków, takie jak ptaki lub takie głosy, które chciał słyszeć, jednocześnie eliminując inne dźwięki z otoczenia.
Obecnie zespół pracuje nad rozszerzeniem systemu o wkładki douszne i aparaty słuchowe.
Współautorami publikacji byli Bandhav Veluri, Malek Itani i Tuochao Chen, doktoranci na University of Washington w Allen School, oraz Takuya Yoshioka, dyrektor ds. badań w AssemblyAI.
Źródło: eurekalert.org
Foto: Kiyomi Taguchi/Uniwersytet Waszyngtoński