| Frå
munn til skjerm
 |
Her skjer alt på ein gong: Legen undersøker
pasienten, rapporterer funna inn i mikrofonen – samstundes med
at talen hennar kjem opp som ferdig tekst på ein dataskjerm.
Foto: Rune Petter Ness
|
Legars handskrift kan vere håplaus å dekode. Men talen
deira kan snart bli forstått av ei maskin.
Av Tore Oksholen
Ho snakkar inn i mikrofonen. Orda formar seg på skjermen medan
ho uttaler dei. Men det går ikkje like greitt heile tida. Kan hende
er ho trønder, og seier «gammellægen te passienten»,
i staden for «pasientens gamle lege». Dataprogrammet leiter
ein augneblink etter det samandregne ordet, men finn det ikkje i uttaleleksikonet
sitt. Altså må det leggjast inn.
Som folk flest har denne legen ein lei tendens til å avbryte seg
sjølv støtt og stadig: Ho begynner på eit ord, men
avbryt midtvegs og vel eit anna ord i staden. Då må programmet
forstå at når ho seier «oppdag-» så hadde
ho eigentleg tenkt å seie «oppdagar» - «oppdag»
er ikkje eit eige ord. Eller: Når ho seier «søke, eh,
finne» så forstår programmet at det er «finne»
som er ordet, og at «søke» ikkje skal nyttast.
Post doc. Bojana Gajic ved NTNU har mange slike problem å stri
med. Ein datamaskin forstår akkurat så mykje som du lærer
den å forstå. Skal eit dataprogram kunne ta høgde for
dei menneskelege variasjonane i naturleg tale, må mange problem
løysast. Det er dette taleteknologien handlar om.
Skal spare tid
Attende til doktoren: Ho er gjerne assistentlege på eit stort, travelt
sjukehus. Journalføring er noko ho vil bruke minst mogleg tid på.
Det skal gå fort, og ho skal ikkje møte problem som tek tid
og krefter å løyse.
Derfor er Gajics mål eit system for talegjenkjenning som er slik
at doktoren kan tale inn sin rapport - med nøling, gjentaking og
andre «feil», slik spontan tale er. Det ho seier, blir i same
sekund transkribert på skjerm. Ho sjekkar kjapt at teksten er OK,
og vips så går den til den elektroniske journalbasen, og er
tilgjengeleg for dei som har tilgang på basen.
Dette er visjonen. Men vi er ikkje der enno. Når vi vil vere der,
veit Gajic ikkje. Det som er sikkert, er at ein kan ikkje overlate legane
systemet før det fungerer optimalt: Dersom dei får eit system
som heile tida misforstår, vil dei ikkje bruke det. Jamvel om sjukehuset
totalt sett sparer tid ved at skrivestova vert overflødig, vil
legane nemleg bruke meir tid.
Støy eit problem
Gajic har tidlegare arbeidd mest med støyproblematikk knytta til
talegjenkjenning. Denne problematikken er særs aktuell i tilhøve
til det såkalla MOBEL-prosjektet - Mobil elektronisk pasientjournal
- kor ein utviklar ein berbar terminal med tilgang til viktige pasientdata
som legane treng, til dømes under visitten. Vital informasjon kan
hentast opp eller bli ført inn via tale.
Då er støyproblematikken sentral. Når du sit på
kontoret og snakkar inn rapporten, er bakgrunnsstøyen konstant
(vifta frå PC-en, osb.), medan den varierer når du flytter
deg frå rom til rom. For at talegjenkjenninga skal fungere optimalt
her, må systemet heile tida kunne sortere ut irrelevante lydar og
tilpasse seg eit lydbilete som er i kontinuerlig endring.
Kontakt: Bojana Gajic, Institutt for teleteknikk, NTNU
Telefon: 73 59 26 74, e-post: gajic@tele.ntnu.no |