Turinys:
- Dideli pokyčiai NLP
- Įspūdingi „Tekstas balsu“ kūriniai „VivoText“
- Dirbtinis balsas rinkodaroje
- Jūsų balsas gyvena
- 2525 metais
Šiomis dienomis dauguma kompiuterio balsų yra paslėpti. Tikriausiai per daug nesigilinate į kiborgus ir robotus, kai išgirstate „droidą“ telefone, padedantį sumokėti sąskaitą arba paklausiantį, kokio skyriaus norite. O kas, jei netikėtai išgirdote Kurtą Cobainą patariantį jums gauti kortelės informaciją? Arba Johnas F. Kennedy pasakoja apie ankstyvo balsavimo stebuklus? Arba Elvis, prieš pradėdamas „didelę, degančios meilės riekę“, išsiaiškina tavo vardą ir adresą?
Visa tai būtų … šiek tiek keista, bet dar labiau žavi tai, kad iš esmės jau yra technologijos. Maždaug prieš dešimtmetį mus nustebino kompiuterio galimybė net iš viso susikalbėti. Dabar mus ruošia nemokami, kompiuterio generuojami balsai, kurie skamba taip, kaip mums žinomi žmonės.
Dideli pokyčiai NLP
Jei atkreipiate dėmesį į natūralios kalbos apdorojimo (NLP) sritį, galbūt girdėjote apie kai kuriuos naujausius patobulinimus, peržengiančius konservuotų virtualių asistentų balsus, kuriuos dabar girdime savo pasaulinėse padėties nustatymo sistemose (GPS) ir automatizuotame versle. telefono linijos.
NLP pradžia pareikalavo daugybės tyrimų, susijusių su bendra žmonių kalbos mechanika. Tyrėjai ir inžinieriai turėjo nustatyti atskirą fonetiką, sulankstyti juos į didesnius frazių ir sakinių generavimo algoritmus, o tada bandyti visa tai valdyti meta lygmeniu, kad būtų sukurtas kažkas, kas skamba realiai. Laikui bėgant NLP vadovai tai įsisavino ir pradėjo kurti pažangius algoritmus, kad suprastų, ką žmonės sako. Sujungdami šiuos du dalykus, kompanijos sugalvojo šių dienų virtualių padėjėjų ir visiškai skaitmeninių sąskaitos apmokėjimo tarnautojų variklius, kurių manierizmas, nors ir erzina, vis dar stebina, kai jūs nustojate galvoti apie darbą, kuris atėjo į juos.
Dabar kai kurios kompanijos siekia daugiau nei bendras virtualus balsas, kad sukurtų konkretesnį suasmenintą rezultatą. Tam reikia pereiti konkretaus asmens leksiką ir surinkti didelius kiekius unikalių balso vaizdo įrašų, tada pritaikyti šį archyvą sudėtingiems fonetikos, pabrėžimo, kadencijos ritmams ir visoms kitoms mažytėms užuominoms, kurias kalbininkai dažnai suskirsto po plačią „prosodijos“ juostą.
Išeina balsas, kurį klausytojai laiko „priklausančiu“ tam tikram asmeniui - arba tam, kurį pažįsta ir yra kalbėję, arba tam, kurio balsą jie atpažįsta kaip asmenybės šlovę.
Nuo Elvio iki Martino Lutherio Kingo bet kuris balsas dabar gali būti „klonuotas“ tokiu būdu, jei yra pakankamai iš anksto įrašytų jų kalbų įrašų. Taikydamos dar detalesnę atskirų mažų garsų analizę ir manipuliavimą jomis, įmonės sugeba padaryti virtualią anglies kopiją kažkieno balsu, kuris skamba panašiai kaip tikras dalykas.
Įspūdingi „Tekstas balsu“ kūriniai „VivoText“
Pavyzdžiui, „VivoText“ yra viena įmonė, kuri siekia revoliucionizuoti dirbtinių žmogaus balsų naudojimą visoms kampanijoms, pradedant audio knygomis ir baigiant interaktyviu balso atsakymu (IVR). „VivoText“ tyrimų ir prodiuserių komandos dirba prie procesų, kurie teoriškai galėtų konkrečiai atkartoti mirusių įžymybių, tokių kaip pati „Ol 'Blue Eyes“, balsus.
„Jei norite klonuoti Franko Sinatros balsą, mes iš tikrųjų išgyventume jo įrašytą palikimą“, - sako „VivoText“ generalinis direktorius Geršonas Silbertas, kalbėdamas apie tai, kaip ši technologija galėtų veikti.
Šiuo metu „VivoText“ siekia archyvuoti tų žmonių, kurie vis dar yra su mumis, pavyzdžiui, NPR korespondentės Neal Conan, kuri pasirašė kaip tokio tipo IT pradininkų projekto, balsus. Reklaminiame vaizdo įraše rodomi „VivoText“ darbuotojai, kruopščiai kuriantys fonetinio kodo modulius, naudojant pateiktą Conan balso įvestį. Tada jie sukuria teksto į kalbą (TTS) įrankių, kurie sukuria dramatiškai žmogišką ir personifikuotą rezultatą, modelius.
Pasak „VivoText“ strategijos ir verslo plėtros viceprezidento Beno Feiblemano, kompiuteris veikia fonemų lygiu (naudojant mažiausias unikalias kalbos dalis), kad atitiktų prosodinį individualaus žmogaus balso modelį.
„Jis žino, kaip balsas kalba“, - sako Feiblemanas ir priduria, kad naudodamas „vieneto pasirinkimą“, kompiuteris pasirenka daugybę kūrinių, kad sudarytų vieną trumpą žodį, pavyzdžiui, ten, kur žodžiui „penktadienis“ suteikiami penki komponentai, padedantys vystytis ypatingas pabrėžimas ir tonalinis rezultatas.
Dirbtinis balsas rinkodaroje
Taigi, kaip tai veikia rinkodaroje? „VivoText“ produktai gali būti labai naudingi kuriant produktus, tokius kaip garso knygos, kurie galėtų pasiekti tikslinę auditoriją. Pvz., Kiek efektyvesnis būtų „Elvis“ balsas, palyginti su vienu iš šių dienų bendrų, automatinių, automatinių balsų, jei jis būtų naudojamas su pramogomis susijusiems gaminiams parduoti?
Arba kaip politikoje? „Feibleman“ kūrė įvairias idėjas, kaip panaudoti tokius projektus, kaip sustiprinti rinkodarą įmonėms ar kitoms šalims, kurioms reikia efektyvesnių pranešimų.
„Jei žinote kokių nors politikų, kandidatuojančių į prezidentus, tai gali turėti 10 milijonų besikeičiančių valstybių rinkėjų, kurie iš asmeninio skambučio gauna kandidatą, dėkodami jiems už palaikymą, pasakodami, kur jiems reikia eiti balsuoti, oras ir visos gaudynės. naktį prieš rinkimus “, - sakė Feiblemanas.
Jūsų balsas gyvena
Yra dar vienas akivaizdus šios technologijos pritaikymas. Natūralios kalbos įmonės, tokios kaip „VivoText“, galėtų sukurti asmeninę paslaugą, įkeliančią visus kliento balso duomenis į produktą, kuris leistų tam asmeniui „kalbėti amžinai“.
Praktinis įgyvendinimas greičiausiai keltų daugybę klausimų apie tai, kaip mes girdime ir internalizuojame balsus. Pavyzdžiui, ko reikia, kad garso srautas skambėtų tiksliai kaip kažkas? Kaip gerai turime pažinti žmogų, kad atpažintume tam tikrą balsą? Ir įdomu, kas atsitiks, jei natūralios kalbos tarnyba pagamins neapdorotą karikatūrą, o ne įtikinamą mimiką?
Rezultatų vertinimas, pasak Feiblemano, dažnai priklauso nuo konteksto. Pavyzdžiui, jis sako, kad vaikai, klausydamiesi istorijos, paprastai neužduoda klausimų apie tai, kas kalba. Jie tiesiog nori daugiau. Be to, daugelis suaugusiųjų gali negalvoti apie tai, kas su jais kalbasi, atsižvelgiant į tam tikrą scenarijų, pavyzdžiui, pasyvią transliaciją ar telefono žinutę. Taip pat lengviau apsikvailinti kompiuteriu telefonu, nes prislopintas garsas gali užmaskuoti nesklandumus ar kitus neatitikimus tarp kompiuterio rezultatų ir žmogaus balso.
„Jums nekyla iššūkio balso autentiškumui“, - sako Feiblemanas.
2525 metais
Bendrovėms žengiant į priekį kuriant produktus ir paslaugas bei atsakant į šiuos klausimus, „gyvosios kalbos“ technologijos galėtų mus pažengti link to technologijos ir žmogaus proto suartėjimo, kuris klasikiškai buvo vadinamas dirbtiniu intelektu (AI).
Jei kompiuteriai gali kalbėti kaip mes, jie gali įtikinti kitus vartotojus galvoti, kad mąsto panašiai kaip mes, ir įsitraukti į didesnį išskirtinumo principą, kurį į mūsų leksiką įvedė Johnas von Neumannas, 1950-ųjų technologijų pionierius, evangelizuotas rašytojų. ir mąstytojai kaip Ray Kurzweil. 2005 m. Kurzweilo knyga „Ypatumas yra šalia“ vienus jaudina, o kitus gąsdina. Kurzweilo prognozė, kad iki 2045 m. „Intelektas“ kaip reiškinys bus smarkiai pašalintas iš žmogaus smegenų ir pereis į technologijas, išblukins linijas tarp mašinų ir jų žmonių meistrų.
Nemirtinga Zagerio ir Evanso „Metų 2525“ dainų tekstuose (niekas nedaro tokių baisių sci-fi baladių kaip šie vaikinai)
4545 metais
Jums nereikės dantų, nereikės
tavo akys
Nerasite ko kramtyti
Niekas į tave nežiūrės
5555 metais
Jūsų rankos šlubuoja šonuose
Tavo kojos neturėjo ką daryti
Kai kurie aparatai tai daro tau
Ar kompiuterio balsai yra žingsnis šia linkme? Kaip naujas būdas perduoti kai kurias žmogaus kūno funkcijas (arba dažniau jas imituoti), toks technikos progresas yra vienas didžiausių ir tikriausiai nepakankamai pranešimų apie pažangą horizonte, kai žvelgiame į išskirtinę ateitį. . (apie „išskirtinumą“ tekste Ar kompiuteriai galės imituoti žmogaus protą?)
