Slišim mrtve ljudi? tehnologija naravnih jezikov oživi pretekle in sedanje glasove

2025

Kazalo:

Velike spremembe NLP
Navdušujoče kreacije "Besedilo na glas" v VivoText-u
Umetni glas v marketingu
Vaš glas živi naprej
Leta 2525

V teh dneh je večina računalniških glasov pasé. Verjetno se premalo ukvarjate z kiborgi in roboti, ko na telefonu slišite "droida", ki vam pomaga pri plačilu računov ali vas vpraša, kateri oddelek želite. Kaj pa, če nenadoma slišite, da vas je Kurt Cobain predvajal za podatke o kartici? Ali pa vam John F. Kennedy pripoveduje o čudah predčasnega glasovanja? Ali pa je Elvis prejel vaše ime in naslov, preden se je vdrl v "kos, koso goreče ljubezni?"

Vse to bi bilo … nekako čudno, a še bolj fascinantno je, da je tehnologija v bistvu že tu. Še pred desetletjem ali več nas je presenetila zmožnost računalnika, da sploh sploh govori. Zdaj nas čakajo glasni glasovi, ki se slišijo tako kot ljudje, ki jih poznamo.

Velike spremembe NLP

Če ste pozorni na področje obdelave naravnega jezika (NLP), ste morda že slišali za nekaj napredka, ki presega vrste konzerviranih glasov virtualnih asistentov, ki jih zdaj slišimo v naših globalnih sistemih za določanje položaja (GPS) in samodejnem poslovanju telefonske linije.

Začetek NLP-ja je zahteval cel kup raziskav splošne mehanike človeškega govora. Raziskovalci in inženirji so morali prepoznati posamezno fonetiko, jih zložiti v večje algoritme za ustvarjanje stavkov in stavkov ter nato vse meta poskušati upravljati na meta ravni, da ustvarijo nekaj, kar se sliši resnično. Sčasoma so voditelji NLP to obvladali in začeli graditi napredne algoritme, da bi razumeli, kaj pravijo ljudje. Sestavljanje teh dveh dveh podjetij je ustvarilo gonilnike za današnje virtualne pomočnike in popolnoma digitalne pisarne za plačilo računov, katerih maniri - čeprav so moteči - so še vedno neverjetni, ko nehaš razmišljati o delu, ki jim je šlo v poštev.

Zdaj nekatera podjetja presegajo splošni virtualni glas, da bi sestavila bolj specifičen prilagojen rezultat. Za to je potreben pretok leksikona določene osebe in zbiranje velikih količin edinstvenega glasovnega videoposnetka, nato pa ta arhiv uporabiti za zapletene ritme za fonetiko, poudarek, kadenco in vse druge drobne znake, ki jih jezikoslovci pogosto združijo pod široko zastavo "prosodije".

Izhaja glas, ki ga poslušalci mislijo kot "lastnika" določene osebe - bodisi nekoga, ki ga poznajo in so govorili, ali nekoga, čigar glas prepoznajo kot rezultat slave osebe.

Od Elvisa do Martina Lutherja Kinga se zdaj lahko klonira vsak glas na ta način - pod pogojem, da je njihov govor že veliko posnet. S še podrobnejšo analizo in manipulacijo na posameznih majhnih zvokih lahko podjetja naredijo virtualno kopijo glasu nekoga, ki zveni veliko kot prava stvar.

Navdušujoče kreacije "Besedilo na glas" v VivoText-u

VivoText, na primer, je eno podjetje, ki si prizadeva spremeniti uporabo umetnih človeških glasov za vse vrste kampanj, od zvočnih knjig do interaktivnega glasovnega odziva (IVR). Na VivoText-u raziskovalne in produkcijske ekipe delajo na procesih, ki bi teoretično lahko posebej posnemali glasove umrlih zvezdnikov, kot je sam Ol 'Blue Eyes.

"Da bi klonirali glas Franka Sinatre, bi dejansko šli skozi njegovo posneto zapuščino, " pravi izvršni direktor VivoText-a Gershon Silbert, ki govori o tem, kako bi tovrstna tehnologija lahko delovala.

Trenutno VivoText dela na arhiviranju glasov tistih, ki so še vedno z nami, kot je dopisnik NPR Neal Conan, ki se je prijavil kot model za tovrstni projekt pionirjev IT. Promocijski video prikazuje delavce VivoText, ki z vso močjo ustvarjajo fonetične kode module s pomočjo zagotovljenega glasovnega vnosa iz Conana. Nato ustvarijo modele orodij za besedilo v govor (TTS), ki vzbujajo dramatičen človeški in personificirani rezultat.

Po besedah Bena Feiblemana, podpredsednika za strategijo in razvoj poslovanja v VivoText-u, računalnik deluje na ravni foneme (z uporabo najmanjših edinstvenih delov govora), da ustreza prosodičnemu modelu posameznega človeškega glasu.

"Ve, kako glas govori, " pravi Feibleman in dodaja, da z uporabo "izbire enote" računalnik izbere več kosov, da sestavi eno kratko besedo, na primer, če beseda "petek" dobi pet komponent, ki pomagajo razvijati poseben poudarek in tonski rezultat.

Umetni glas v marketingu

Kako to deluje v marketingu? Izdelki VivoText bi lahko bili izjemno uporabni pri ustvarjanju izdelkov, kot so avdio knjige, ki bi lahko dosegli ciljno občinstvo. Na primer, kako učinkovitejši bi bil glas Elvisa v primerjavi z enim današnjim generičnim, mrtvim, avtomatiziranim glasom, če bi ga uporabili za prodajo izdelkov, povezanih z zabavo?

Ali pa kako v politiki? Feibleman si prizadeva za različne ideje o uporabi takšnih projektov, da bi okrepil trženje za podjetja ali druge stranke, ki potrebujejo učinkovitejše sporočanje.

"Če poznate politike, ki kandidirajo za predsednika, bi to lahko 10 milijonov volilnih volivcev dobilo kandidat za osebni klic in se jim zahvalilo za podporo in jim povedalo, kje morajo glasovati, vreme in vse delitve noč pred volitvami, "je dejal Feibleman.

Vaš glas živi naprej

Za vso to tehnologijo obstaja še ena očitna uporaba. Podjetja v naravnem jeziku, kot je VivoText, bi lahko ustvarila osebno storitev, ki bi naložila vse glasovne podatke stranke v izdelek, ki bi tej osebi omogočil, da "govori za vedno".

Praktična izvedba bi verjetno sprožila številna vprašanja o tem, kako slišimo in ponotranjimo govorjene glasove. Na primer, kaj je potrebno, da zvočni tok zveni tako, kot nekdo? Kako dobro moramo človeka poznati, da prepozna določen glas? In zanimivo, kaj se zgodi, če storitev naravnega jezika ustvari grobo karikaturo in ne prepričljive mimikrije?

Ocenjevanje rezultatov, pravi Feibleman, je pogosto odvisno od upoštevanja konteksta. Na primer, pravi, da otroci običajno ne postavljajo vprašanj, kdo govori, ko poslušajo zgodbo. Samo želijo več. Vendar tudi veliko odraslih morda ne razmišlja o tem, kdo se z njimi pogovarja glede na določen scenarij, na primer pasivno oddajo ali telefonsko sporočilo. Prav tako se lažje prevarate z računalnikom po telefonu, ker lahko prigušen zvok prikrije napake ali drugačna odstopanja med računalniškimi rezultati in človeškim glasom.

"Ne pade vam na pamet, da izpodbijate pristnost glasu, " pravi Feibleman.

Leta 2525

Ko podjetja napredujejo pri razvoju izdelkov in storitev in odgovarjanju na ta vprašanja, bi nas lahko tehnologija "živega govora" usmerila k konvergenci tehnologije in človeškega uma, ki se klasično imenuje umetna inteligenca (AI).

Če lahko računalniki govorijo kot mi, bodo morda lahko drugi uporabniki prevarali, da mislijo, da mislijo kot mi, in se podali v širše načelo singularnosti, kot ga je v naš leksikon vstavil John von Neumann, pionir tehnoloških pionirjev iz 1950-ih, ki so ga evangelizirali pisci in misleci, kot je Ray Kurzweil. Kurzweilova knjiga iz leta 2005 "Singularnost je blizu" nekatere navduši in druge prestraši. Kurzweil je napovedoval, da se bo do leta 2045 "inteligenca" kot pojav močno spremenila iz človeških možganov in se preselila v tehnologijo ter tako zabrisala črte med stroji in njihovimi človeškimi gospodarji.

Ovekovečen v besedilu Zager & Evans "V letu 2525" (nihče ne dela grozljivih znanstveno-fantastičnih balad kot ti)

Leta 4545

Ne boš potreboval zob, ne boš potreboval

tvoje oči

Ne boste našli žvečiti stvari

Nihče te ne bo gledal

Leta 5555

Roke visijo ob bokih

Noge ti nič ne dajo

Nekateri stroj to naredi za vas

Ali so računalniški glasovi korak v to smer? Kot nov način za oddajanje nekaterih funkcij človeškega telesa (ali pogosteje za njihovo simuliranje) je tovrstni tehnološki napredek eden največjih - in verjetno premalo prijavljenih - na obzorju, ko gledamo v edinstveno prihodnost . (o "posebnosti", ali bodo računalniki zmožni posnemati človeški um?)