Sztuczna inteligencja przywróciła głos sparaliżowanej kobiecie

termedia.pl 2 lat temu

Zdjęcie: Medscape

Interfejs mózg-komputer (BCI) umożliwił sparaliżowanej kobiecie, która straciła zdolność mówienia po udarze mózgu, komunikowanie się za pośrednictwem cyfrowego awatara.

Osiągnięcie zespołu naukowców z University of California San Francisco (UCSF) i UC Berkeley pozwalają po raz pierwszy zsyntetyzować mowę lub mimikę twarzy z sygnałami mózgowymi.

– Naszym celem w połączeniu mowy z awatarem jest umożliwienie pełnej komunikacji dzięki mowy, która jest czymś więcej niż tylko słowami. Dla nas jest to kamień milowy, który przenosi nasze urządzenie poza obszar koncepcji i niedługo stanie się realną opcją dla osób sparaliżowanych – wyjaśnia Edward Chang, MD, przewodniczący chirurgii neurologicznej w UCSF, który pracował nad technologią od ponad dekady.

We wcześniejszym badaniu naukowcy wykazali, iż możliwe jest zarejestrowanie aktywności neuronalnej sparaliżowanej osoby, która próbuje mówić, i przetłumaczyć tę aktywność na słowa i zdania jako tekst na ekranie.

Ich nowa praca demonstruje coś znacznie bardziej ambitnego: dekodowanie sygnałów mózgowych, które zamienia je w mowę wraz z ruchami, ożywiające twarz osoby podczas rozmowy.

– W tym nowym badaniu nasze tłumaczenie prób mowy na tekst osiąga około 78 słów na minutę. Pokazujemy również, iż możliwe jest przetłumaczenie sygnałów neuronowych nie tylko na tekst na ekranie, ale także bezpośrednio na słyszalną mowę syntetyczną, z ruchem twarzy na awatarze – mówi Chang.

Zespół wszczepił 253 nieduże elektrody na powierzchnię mózgu kobiety w obszarach krytycznych dla mowy.

Elektrody przechwytują sygnały mózgowe, które, gdyby nie udar, trafiłyby do mięśni języka, szczęki, krtani i twarzy. Przymocowany do głowy port łączył elektrody z komputerem.

Naukowcy wyszkolili i ocenili modele głębokiego uczenia się przy użyciu danych neuronowych zebranych podczas próby cichego wypowiadania zdań.

Przez wiele tygodni powtarzane były w kółko różne frazy ze słownictwa konwersacyjnego składającego się ze 1024 słów, dopóki komputer nie rozpoznał wzorców aktywności mózgu związanych z dźwiękami.

– To urządzenie odczytuje instrukcję, której mózg używa, aby przekazać mięśniom w drogach głosowych – mówi Chang.