Diktofon Androidile tunneb eesti keelt ja transkribeerib kõnet tekstiks

Android Marketis Eesti rakendusi otsides hakkas silma üks pealtnäha üsna tavaline - Diktofon. Aga... lähemalt uurides on see siiski asi, millele peaksid tormi jooksma kõik ajakirjanikud, sekretärid, ärimehed, õpetajad ja paljud teised, kellel vaja midagi lindistada ja pärast jutt kirja panna. Nimelt oskab Diktofon eesti keelt. Mitte lihtsalt ei oska, vaid saab aru ka eestikeelsest kõnest ning oskab seda tekstiks ümber panna. 

Androidirakendus ise on lihtsa elementaarse kasutajaliidesega ja aitab helifailides korda luua: märgistada teemadega, otsida helifaili sees (transkribeeritud tekstide abil muidugi) ja tuvastada, mitu inimest räägib. Otsingusõna järgi saab hakata lindistust maha mängima just sellest kohast, kus see sõna "lindil" öeldi.

Kuigi pikkade ja keeruliste lausetega ei saa veel teisendusmoodul päris hästi aru kogu jutust, on enamus lihtsat teksti siiski üsna loetav ja vajab vaid vähest kohendamist. Ehk siis kui laused on lihtsamad kui Arnold Rüütlil, oskab pärast neid ka tekstina lugeda, kuigi vigadega. Lühilaused ja hüüatused aga transkribeeritakse üllatavalt täpselt. Milline tohutu aja kokkuhoid kõigil, kes lindistatud juttu ümber löövad arvutisse - teksti parandamiseks kulub kordi vähem aega. Ja lisaks muidugi otsinguvõimalus - see on helifailides muidu olnud peaaegu võimatu.

Rakenduse autor on Kaarel Kaljurand, kõne-tekstiks mootorina kasutatakse aga TTÜ Küberneetika Instituudi foneetika- ja kõnetehnoloogia laboris väljatöötatud tehnoloogiat ja mudeleid. Tegelikult saab igaüks ise ka veebi kaudu oma helifailid tekstiks pöörata - vastav veebivorm asub siin: 

http://bark.phon.ioc.ee/webtrans/

Rakenduses ja ka sellel veebilehel saab transkribeeritud teksti näiteks omale e-postile saata. Meilile saadetakse ka .trs fail, mida võib kasutada Transcriberis (see programm aitab helifaili ja teksti sünkroonis hoida, et transkriptsiooni jälgida ja käsitsi parandada).

Seda, kuidas kõnetuvastus töötab, saab vaadata TSAB-i kõnesalvestuste brauserist, kus osad raadiosaated üles pannakse läbi transkribeerimistarkvara tekstiks pööratult. Vaata siia. Sealt leiab ka Kuku raadio Digitunni tekstisalvestised. naljakad kohati on, aga teemast saab aru: http://bark.phon.ioc.ee/tsab/p/play?trans=451.

LISAKS: Nüüd sai testitud ka üht varasemat lindistust, mis tehtud HTC Legendiga ruumis ringi liikudes. Oli IT Kolledži lahtiste uste päev ja meid saatva giidi jutt müra taustal ja kajavas ruumis. Ära tegi, aga tekst on pehmelt öeldes mitte just samal teemal. Seega - vaja on head seadet (nt diktofoni korraliku mikrofoniga) ja korralikku diktsiooni, lindistatav peab istuma mittekajavas ruumis otse mikrofoni juures. Arvuti sisemise mikrofoniga lindistatud tekstist oli teemat aru saada ja kohati olid laused täiesti õiged. Müraga ja kajaga ning ringi liikudes sai aga transkriptsioon mobiililt selline:

 
Teine arutelu tuleva kuuajaline ekspeaaegu pereema annelinna mida haige rekordid ja ja ja veel kirja vähem pileteid no vahendab.  
Turvavõideldi teede vaadeldava lava eriti külm mai Euroopa viiekümne et on vähenenud.  
Nii ka tööajal avanenud ja ja ja õnnelik.  
Tõesti nii palju Valio Eesti keel ja ja ja ja Ain juurde minema.  
Töölauale edu Kiievi tervisemurede rahvaliit ja muud aia ka näiteid asja uurimine ja praegu ammu üle käivad.  
Ei ole.  
Ta on kahe või viie maja alla väga tegelikult ikkagi.  
Ja palju pikem ja ja ja.  
Ja aega või mineraalvastava kirja panna või kraavi ja programmi või kinni või mitte ja ja millega pole vaja kui taoline viide Euroopa aja teravalt.  
Märgil on ka ooperi ja tema võrku Panovile päeva Riia remontida.  
Mõnda internetiJoanne teevadki moe peale tegelikult et sellega vaid üle käib ka vaba päev.  
Või päevagi ilma meeste endi ja.  
See kummaline mina leppida ja ja meie viie kuni kolm siia neoon rääkima looma oli viidud linnapea.  
Kõigepealt ilmub Milvi ja kuhu oma oma mille pähe võtma juba ametlikult maha müüa ja rahatähti ja see ongi ju naabri.  
Voorivad piiride maha müüma alajaamu piiravate saab jõuda peaproovile ahve silme ees ma ei ole enam ütleb Riina.  
Lennumasina midagi ega ole veel jõuda noh nii poliitilisi ega seda ole kiidetud olevat ja.  
Ta siinkandis on ka kuku raadio.  
Ja kuigi oleme viimasel ajal ei ole aineid Wiracocha kohal saab näha kohale kandideerite viga keegi kukub lähemegi.
 

Selle looga sai nüüd ajakirja septembrinumbri tegemine alguse ja eestikeelsest transkribeerimistarkvarast tulebki juttu ka järgmises, septembri Arvutimaailmas. Augustinumber saabub aga müügile selle nädala jooksul.

Kasutame veebilehel nn Cookie´sid, et toetada tehnilisi funktsioone ja pakkuda sellega paremat kasutajakogemust.

Kasutame ka andmeanalüütikat ja reklaamiteenuseid. Klõpsa nupul Rohkem teavet, kui tahad lähemalt teada.