Q:
Kuo skiriasi kalbėjimas nuo teksto ir pokalbių programos?
A:Daugybė reikšmingų skirtumų tarp kalbėjimo į tekstą technologijų ir „chatbot“ yra dalis to, kas nagrinėjama sparčiai vykstant „chatbot“ ir „voicebot“ projektams.
Kalbos į tekstą technologija yra tokia, kuri verbalinę kalbą paverčia skaitmeninio puslapio tekstu. Tai yra visa jo funkcija, tačiau ne vienas jį paprasta suprojektuoti. Norint žodinę kalbą paversti tekstu, ši technologija turi padalinti žodžius ir sakinius į atskiras fonemas ir dirbti su jais pagal sudėtingus algoritmus, kad būtų sukurtas tikslus ir tiksliai kalbantis tekstas.
Kita vertus, pokalbių robotai yra technologijos, kuriomis pasiekiamas tikslas bendrauti su žmogumi. Yra du pokalbių svetainių tipai: tekstiniai pokalbių robotai ir balso baldai. Tekstiniai pokalbių robotai buvo kur kas ilgesni, nes jiems nereikia kalbėjimo į tekstą elemento, kurį naudoja balso balso įrašai.
Pagrindinis kalbėjimo į tekstą technologijų ir pokalbių programų skirtumas yra apimtis. Kaip minėta, visa kalbėjimo į tekstą technologija turi būti žodinės kalbos perrašymas. Kita vertus, „chatbot“ turi kalbėti kokia forma, kokia ji yra, ją suprasti ir pateikti atsakymus, kuriais siekiama išlaikyti Turingo testą - testą, ar technologija gali priversti žmogų galvoti, kad jis arba ji yra kalbėdamas su kitu žmogumi.
Turint tai omenyje, pokalbių robotus yra kur kas lengviau nei balso įrašų. „Chatbot“ priima žmogaus tekstą ir pateikia atsakymą į tekstą. Net palyginti paprasti pokalbių žodynai nuo 1980-ųjų pabaigos iki 1990-ųjų pradžios žmonėms galėjo suteikti įdomių ir malonių rezultatų.
Kita vertus, balso paketas turi priimti žodinę kalbą, konvertuoti ją į tekstą, tikrinti tikslumą, pateikti atsakymą ir tą atsakymą iš mašininės kalbos sukurti į girdimą kalbą. Šis nemažas skaičius gana reikšmingų užduočių reiškia, kad balso paketas sukuria daug skaičiavimo galios ir daug dizaino.
Tokie projektai, kaip „Siri“, „Cortana“ ir „Alexa“, demonstruoja svarbų balso įrašų technologijų progresą. Jie taip pat iliustruoja, kad ši technologija vis dar yra pradinėje stadijoje. Nors „Alexa“ ir kitos technologijos gali žodžiu reaguoti į žmogaus kalbą, jos nėra ypač pajėgios ta prasme, kad mus apskritai sieja su žodine žmonių kalba. Kitaip tariant, atsakymai, kuriuos gali suteikti šios technologijos, yra gana riboti. Šiandienos asmeninių asistentų karta turi net ribotas galimybes generuoti kalbą į tekstą, pavyzdžiui, norint perrašyti el. Laišką ar padėti kam nors parašyti esė nenaudojant jų rankų. Kai kurios rinkoje esančios specifinės kalbos į tekstą programos tai daro geriau nei „Siri“ ar „Cortana“, tikriausiai dėl išteklių paskirstymo. Tačiau yra ženklų, rodančių, kad „balsobot“ progresas netrukus pradės augti - pavyzdžiui, „Amazon“ „Lex“ platforma, leidžianti studijos aplinką kurti tokio tipo technologijas.
Protingame ir pamokančiame rašinyje šia tema Tobiasas Goebelis pasakoja apie šių technologijų skirtumą, prieštaraudamas „perrašymo“ procesui, kurį kalba kalba tekstui, supratimo darbui, kurį turėtų atlikti pokalbių robotai.
„Nors pašalinus poreikį atpažinti kalbą, pokalbių programai viskas palengvėja, pagrindinis iššūkis sukurti veikiančius robotus yra natūralus kalbos supratimas“, - rašo Goebelis.
Goebelis taip pat identifikuoja daugelį dabartinių šios srities žaidėjų:
Kalbos atpažinimo rinkos lyderis yra „Nuance“, kuris remia tokias gerai žinomas sistemas kaip „Dragon NaturallySpeaking“ diktuoti asmeniniame kompiuteryje, veikiančioje nuo 9-ojo dešimtmečio, bet ir „Siri“: „Apple“ debesyje vykdoma kalbos atpažinimo / transkripcijos užduotis naudojama „Nuance“ technologija užkulisiuose. Kiti yra „LumenVox“, „Verbio“ arba „Interactions“, tačiau kalbų atpažinimą dabar taip pat siūlo kaip debesies paslaugą per API, pavyzdžiui, „Amazon“, „Google“, „Microsoft“ ir IBM.
Vystantis pokalbių programoms, daroma prielaida, kad jų supratimas ir toliau didės tam tikra trajektorija - ir taip pat manoma, kad daugiau robotų technologijos pereis iš teksto sąsajų į žodines sąsajas ir pareikalaus papildomo skaičiavimo galios.
