Govorna komunikacija z računalniki


Kaj se bomo v tem poglavju naučili?

Spoznali bomo nekatere probleme, ki bodo morali že biti zadovoljivo rešeni, preden bo govorna komunikacija z računalniki prešla v vsakdanjo prakso:

Predstavitev

computer_speech

Interakcijo med uporabnikom in računalnikom bo sčasoma zelo poenostavila govorna komunikacija, ki pa je šele v razvojnih fazah. Ljudje pri svoji komunikaciji uporabljamo naravni jezik. Problem še otežuje dejstvo, da je jezikov več.  Končni cilj je, da bi zgradili računalniški sistem, ki bi lahko obojesmerno uporabljal naravni jezik, kot to počnemo ljudje. Vmesni cilj pa je, da bi računalnik znal obdelovati tekst in govor bolj inteligentno.

 

image002

Raziskave potekajo interdisciplinarno: obsegajo lingvistiko in modeliranje jezikov, psihologijo in kognitivne procese, matematiko in študij lastnosti formalnih jezikov.


Sinteza govora


Sinteza govora je umetna produkcija človeškega govora. Računalniški sistem, ki se uporablja v ta namen, se imenuje govorni računalnik ali sintetizator govora in se lahko izvaja v programskih ali strojnih izdelkih. Sistem za pretvorbo besedila v govor (TTS) pretvarja besedilo v običajnem jeziku v govor; v drugih sistemih govorni jezik predstavljajo simbolične lingvistične predstavitve, kot so fonetične transkripcije.

Sintetiziran govor lahko ustvarimo z združevanjem posnetkov govora, ki so shranjeni v bazi podatkov. Sistemi se razlikujejo po velikosti shranjenih govornih enot; sistem, ki shranjuje telefone ali difone, zagotavlja največji izhodni obseg, vendar lahko ni dovolj jasen. Za posebne domene uporabe lahko shranjevanje celotnih besed ali stavkov omogoča visoko kakovostne rezultate. Druga možnost je, da lahko sintetizator vključi model vokalnega trakta in druge značilnosti človeškega glasu, da ustvari popolnoma "sintetični" glasovni izpis.

Kakovost sintetizatorja govora se ocenjuje po njegovi podobnosti s človeškim glasom in po njegovi sposobnosti razumevanja. Z razumljivim programom besedila v govor ljudem z motnjami vida ali bralnimi težavami lahko poslušajo pisne besede na domačem računalniku. Mnogi računalniški operacijski sistemi so vključevali govorne sintetizatorje že od začetka devetdesetih let.

Danes poznamo govorne sintetizatorje, ki največkrat pretvarjajo tekst v govor.Ti lahko pomagajo otrokom in odraslim, ki imajo težavo z branjem besedil.
Lep primer za pretvorbo slovenskih besedil v govor.


Razpoznavanje govora

Poznamo preproste sisteme za razpoznavo govora, ki jim včasih napačno pravimo sistemi za razpoznavo glasu.  Razpoznava glasu je soroden proces, ki pa je namenjen identifikaciji govoreče osebe.
 
V raziskavah na področju razpoznave govora je bilo zasnovanih in implementiranih veliko različnih algoritmov. K hitrejšemu razvoju sistemov avtomatskega razpoznavanja je pripomogla predvsem proizvodnja cenenih signalnih procesorjev.

Oglejmo si primer razpoznave govora (žal v angleščini).
 
Pri govorni komunikaciji človek enostavno razloči ženski glas od moškega, govor razume neodvisno od govorca, tudi v šumnih okoljih. Vse to pa povzroča precejšnje težave sistemom za avtomatsko razpoznavanje govora. Njihova uporaba je precej omejena, zato jih lahko glede na te omejitve razdelimo v različne skupine. Glede na način razpoznavanja govora jih delimo v tri skupine:

 

Pri razpoznavanju izoliranih besed morajo biti besede izgovorjene tako, da lahko določimo njihove meje. V zadnjih letih lahko tako z glasom aktiviramo telefon ali vnašamo preproste ukaze oziroma podatke (na primer vnos številke kreditne kartice).
 
Pri razpoznavanju vezanega govora je vhod tekoč govor, sestavljen iz izoliranih besed.
Sistemi za razpoznavanje tekočega govora nimajo omejitev in so zato najbolj kompleksni, pa tudi najbolj zanimivi za uporabo. Ti sistemi se morajo spopadati s problemom koartikulacije - to je pojav, ko fonemi in besede vplivajo na sosednje foneme in besede in tako otežujejo razpoznavanje.
 
Razpoznavalniki govora so lahko odvisni ali neodvisni od govorca, lahko so tudi adaptivni. Sistemi, ki so odvisni od govorca, so razviti tako, da delujejo samo za eno osebo. Takšni sistemi so enostavni za razvoj in bolj natančni, a niso preveč fleksibilni. Sistemi, neodvisni od govorca, lahko interaktirajo s katerokoli osebo določnega tipa. Ti sistemi so težji za implementacijo in dražji. Pri adaptivnih sistemih pa se razpoznavalnik prilagaja govorcu med delovanjem. Take sisteme moramo najprej naučiti (nadzorovano ali nenadzorovano), da se prilagodijo uporabniku.

Nekateri sistemi za prepoznavanje govora zahtevajo "usposabljanje", kjer posamezni govornik bere besedilo ali izoliran besednjak v sistem. Sistem analizira specifični glas osebe in jo uporablja za natančno prilagajanje prepoznavanja govora te osebe, kar povzroči večjo natančnost. Sistemi, ki ne uporabljajo usposabljanja, se imenujejo "neodvisni od govorca". Sistemi, ki uporabljajo usposabljanje, se imenujejo "odvisni od govorca".

Aplikacije za prepoznavanje govora vključujejo glasovne uporabniške vmesnike, kot so glasovno klicanje (npr. »Klic domov«), usmerjanje klicev,  iskanje podcasta, kjer so bile izgovorjene določene besede, preprosto vnašanje podatkov (npr. vnos številke kreditne kartice), pripravo strukturiranih dokumentov (npr. radiološko poročilo), določanje karakteristik govorca, predelavo govora v besedilo (npr. urejevalniki besedil ali e-pošte) itd.

Razpoznavanje glasu

Izraz prepoznavanje glasu ali identifikacija govorca [se nanaša na samo razpoznavanje govornika, ne pa na to, kar ta govori. Prepoznavanje  govornika lahko poenostavi prevajanje govora v sistemih, ki so bili prilagojeni na glas določene osebe lahko pa to uporabimo le za preverjanje  identitete govornika v skliopu varnostnega procesa.

Z vidika tehnologije ima prepoznavanje govora dolgo zgodovino z različnimi inovacijami. V zadnjem času je to področje izkoristilo napredek na področju poglobljenega učenja in velikih podatkov. Napredek se kaže tudi s sprejetjem različnih globalnih učnih metod pri oblikovanju in uvajanju sistemov za prepoznavanje govora po vsem svetu. Med akterji  govorne industrije zasledimo  Google, Microsoft, IBM, Baidu, Apple, Amazon, itd.