Intelligente høreapparater

Intelligente høreapparater

Billede: Oticon

Fremtidens høreapparater sorterer selv baggrundsstøjen fra og giver brugeren den rene tale. De adskiller også forskellige stemmer lader den hørehæmmede fokusere på sin samtalepartner. De bygger på kunstig intelligens, og grundstenene i denne udvikling bliver i øjeblikket lagt på Aalborg Universitet. Refleksionstid har talt med en af forskerne bag gennembruddet.

Vi kender det alle sammen. Faster Oda sidder og stirrer fjernt ud i rummet til familiefesten. Hun skruer måske lidt på høreapparatet og bander for sig selv over en hyletone, eller over hendes søster på den anden side af bordet, som er så skinger. Irritationen gør, at hun til sidst tager høreapparatet ud, sidder for sig selv og venter på at festen slutter.

Disse seancer vil om nogle år forhåbentligt være en saga blot. Det skyldes udviklinger indenfor det man populært kalder kunstig intelligens eller maskinlæring. Omfattende algoritmer og teknologisk udvikling af hele tiden mindre, men kraftigere computere, skal give større livskvalitet til faster Oda’er overalt og løse det problem man også kalder ’cocktail-party problemet’, som er præcis det hun oplever her.

Vi har talt med Morten Kolbæk, hvis forskning netop bidrager til denne udvikling. Morten er post.doc ved institut for elektroniske systemer på Aalborg Universitet. Han skrev sin Ph.d. om brugen af kunstig intelligens indenfor taleforbedring og taleseparation. Afhandlingen blev finansieret af Oticon fonden, og havde professor Jesper Jensen og professor Zheng-Hua Tan tilknyttet som vejledere. Vi har talt med Morten om netop dette, hvad kunstig intelligens egentlig er og om hvad det vil sige at vores teknologi har fået en form for ‘intelligens’.

 

Hvad er kunstig intelligens?

Vi lever i teknologiens tidsalder, og en af de mest lovende udviklinger omhandler netop kunstig intelligens. Visse analyser regner med, at markedet for kunstig intelligens i 2025 vil have vokset til en billion-industri.

Hvis man vil blive klogere på hvad kunstig intelligens er for en størrelse, må man forsøge at dykke ned i de teknikker, der ligger bag udviklingen. Et begreb vi her møder er Deep Learning, som dækker over en række teknikker indenfor det akademiske felt maskinlæring. Morten forklarer, at teknikkerne oftest bruges til at lære en computer at udføre en opgave, som vi mennesker selv er gode til, uden helt at vide hvordan vi er gode til det.

Det kan være at genkende et håndskrevet ord eller tal, et ansigt eller en stemme. Det kan fx være meget svært, ja nærmest umuligt, at forklare hvordan vi genkender vores mor uden at henvise til karakteristika hun deler med en masse andre mennesker. Og når vi ikke ved præcis hvordan vi selv løser opgaven, kan vi heller ikke programmere en computer til at gøre det. Og det er altså her kunstig intelligens kommer ind i billedet.

 

Det neurale netværk

“Hjernen” bag den kunstige intelligens kaldes også et Kunstigt Neuralt Netværk. Begrebet stammer fra neurofysiologien, hvor man i fordums tid forsøgte at give et bud på hvordan vores neuroner i hjernen fungerede, og derfor udviklede en model der kunne illustrere dette. Det er sidenhen blevet adopteret i maskinlæringsfeltet, hvor forbindelsen til den menneskelige hjerne udelukkende kan ses som en metafor.

Det neurale netværk er en form for algoritme bestående af flere hundredetusinde matematiske funktioner, også kaldet ‘neuroner’. Hver funktions output, resultatet af den udregning funktionen foretager, sendes videre i det neurale netværk, og indgår som input i den næste del af netværkets mange ‘lag’ (se fig.). Det er heraf navnet deep learning stammer; de mange lag i det neurale netværk giver det ‘dybde’ og er også grunden til teknikken virker så godt.

Netværket består altså af en lang række funktioner, der med et givet input giver et givet output. ‘Signalet’ fra ‘neuronen’ sendes videre og får hele rækken af ‘neuroner’ i næste lag til at sende signaler videre.

Billede: Morten Kolbæks Ph.d. præsentation

 

Træningen af et netværk

Hvert neuron er som sagt en funktion, og disse funktioner er sådan set meget simple. Morten forklarer, at det i princippet bare er funktioner, der tager et input, ganger et tal på, og giver et output deraf. Disse tal der ganges på, er netværkets parametre, og er i første omgang tilfældige. Når man taler om at netværket ‘lærer’ noget, så er det altså disse parametre, der justeres på.

Netværket lærer de rigtige parametre ved, at vi ‘træner’ det. Det gør man ved at få netværket til at gennemgå et sæt af træningsdata, og hver gang netværket regner forkert, må vi ind og ændre parametrene, så vi næste gang får et bedre resultat. Men hvordan skal vi så ændre vores parametre?

Forskeren kan selvfølgelig ikke selv sidde og ændre på hvert af disse hundredtusindvis af tal, der ganges på hvert af netværkets neuroner og Morten forklarer, at det faktisk var et problem i lang tid indenfor maskinlæringsfeltet. 

Der skete dog et gennembrud i 1986, da metoden backpropagation blev opdaget. Backpropagation udnytter differentialregningen til at justere på alle parametrene i netværket. Gennem træningen af netværket udregnes der en ‘fejl’, en der siger noget om hvor godt netværket er. Hvis vi differentierer det neurale netværk i forhold til denne fejl, så finder vi ud af hvor meget vi skal justere netværket i den ene eller anden retning, for at fejlen bliver mindre.

 

Fra matetikken til det intelligente høreapparat

Hvordan fungerer alt dette så i forhold til at udvikle intelligente høreapparater? Det vil nok umiddelbart virke lidt mystisk. Men i princippet er det rimelig simpelt, hvis vi udestår fra at gå ned i detaljerne.

Vi er interesseret i at udvikle et netværk som kan forbedre tale, og også separerer forskellige talere. Vi leder derfor efter en algoritme, som får et støjfuldt talesignal som input, og giver et rent talesignal som output. Vi ved, at lyd er vibrationer. Når vi optager lyd, så får vi en række tal som repræsentere lyden i vibrationer over tid. Morten forklarer, at når vi kigger på lyden i frekvensdomænet, så kan vi relativt let se forskel på støj og tale. Dette  understøtter, at netværket kan lære at genkende og fjerne det data, der repræsenterer støj.

I forhold til taleseparationsdelen er der den ekstra teknikalitet, at netværket skal give flere output i stedet for kun ét, idet man ønsker det neurale netværk at separere et mix af flere talesignaler. Problemet er her, hvilke signaler der skal parres under træningen, da man ikke på forhånd kan vide hvordan netværket separere det mixede talesignal. Det er her Mortens Ph.d. har fået mest omtale, nemlig angående metoden forkortet PIT, Permutation Invariant Training, som er en teknik der er udviklet i samarbejde med Microsoft.

 

Kunstig intelligens eller deep learning?

Det skulle gerne stå forholdsvis klart nu, at de teknikker der ligger bag såkaldt kunstig intelligens, måske i virkeligheden handler mindre om intelligens og mere om approksimationer og spidsfindig matematik. Og det er sådan set hverken specielt kompliceret eller ny avanceret matematik for den sags skyld. De fleste af idéerne, foruden backpropagation som kom i 80’erne, er kendt fra midten af det 20.  århundrede. Grunden til den heftige udvikling vi ser indenfor kunstig intelligens skal altså ikke kun findes i idéerne, men i vores computere.

Eftersom algoritmernes præcision afhænger af antallet af neuroner i netværket, så er reglen simpel: Jo større desto bedre. Og det kræver en god mængde computerkraft at håndtere disse netværk med millioner af dele.

Efter at have været inde i hjernen af den kunstige intelligens, spørger vi Morten hvordan han ser fremtidsudsigterne og nogle af de, måske mindre heldige, konsekvenser af den store AI-hype vi oplever.

I udgangspunktet er Morten positiv overfor udviklingen. Teknologien har mulighed for at løse en lang række problemer indenfor mange forskellige felter. Men der kan også være grund til bekymring. Kunstig intelligens og deep learning henviser i udgangspunktet ofte til den samme teknologi, men i virkeligheden  er begreberne  forskellige. Morten fortæller, at forskere indenfor universitetsverden helst anvender begrebet deep learning, mens resten af omverden, og markedet især, snakker om kunstig intelligens.

Og vi ser nu også forskere i højere grad gøre brug af begrebet kunstig intelligens frem for deep learning i forsøget på at skaffe omtale og ‘funding’. Markedets høje forventningerne til kunstig intelligens som et investeringsobjekt, risikerer simpelthen at løbe fra vores mere rimelige forventninger til deep learning som et forskningsområde.

Når forbindelsen mellem kunstig intelligens og deep learning i stadig større grad forsvinder ud af mediebilledet og den politiske virkelighed, så risikerer vi samtidig at samfundsdebatten og politikken får et skævt udgangspunkt for at håndtere diverse problemstillinger der følger. Som et eksempel nævner Morten regerings nationale strategi for kunstig intelligens. Heri finder vi fx en idé om at kunstig intelligens ikke må skabes med et uhensigtsmæssigt  bias. Men som Morten siger, så vil kunstig intelligens formentlig altid have bias, og de teknikker vi har i dag fungerer sådan set bedre, jo mere specialiserede man gør dem, hvilket uundgåeligt vil medfører en form for bias. Det er selvfølgelig særdeles vigtigt at være klar over hvilke bias der gør sig gældende når teknologien implementeres, men at kræve en kunstig intelligens helt uden bias er meningsløst; det er et spørgsmål om hvor godt man ser efter.

Vi oplever en tendens til, at den store ‘hype’ omkring kunstig intelligens risikerer at skabe en lidt forvirret virkelighed omkring fænomenet. Når dette sker, er det nogle gange som om science-fiction nærmere end vores videnskabelige forskning får lov at diktere samfundsdebatten.

Når vi diskuterer tematikker som ‘menneskelige robotter’ og den slags ting, så er det måske en god idé at have i baghovedet, at der bag disse robotter altså ikke ligger nogen egentlig intelligens. I hvert fald ikke i den forstand at robotten kan beslutte sig for at gøre noget andet end det den er trænet til. Den er ikke andet end en række tal i en sammenhæng.

Forbindelsen mellem viden, politik og økonomi er afgørende for et samfunds udvikling. Det er derfor vigtigt, at vi ikke glemmer hvad vi egentlig snakker om, når vi fx siger at vores smartphones, eller anden elektronik, har fået indbygget kunstig intelligens. 

(Har du lyst til at vide mere om deep learning og kunstige neurale netværk? Herunder kan du finde hele Mortens ph.D afhandling inklusiv power point præsentation. Du kan desuden finde et link til en fantastisk videoserie på youtube om kunstige neurale netværk (video på engelsk)).

Ekstra materiale:

Morten Kolbæk’s Ph.d. afhandling, præsentation og demo: kolbaek-phd.aau.dk

Youtube serie om neurale netværk: https://youtu.be/aircAruvnKk

/Anders Jensen, Refleksionstid

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *