Vigtigste Innovere Googles nye AI til tekst til tale er så god, at vi vedder på, at du ikke kan fortælle det fra et rigtigt menneske

Googles nye AI til tekst til tale er så god, at vi vedder på, at du ikke kan fortælle det fra et rigtigt menneske

Dit Horoskop Til I Morgen

Kan du se forskellen mellem AI-genereret computertale og et ægte, levende menneske? Måske har du altid troet, du kunne. Måske er du glad for Alexa og Siri, men tror du aldrig ville forveksle nogen af ​​dem med en egentlig kvinde.

Ting er ved at blive meget mere interessante. Google-ingeniører har arbejdet hårdt på at skabe et kaldet tekst-til-tale-system Tacotron 2 . Ifølge en papir de udgav i denne måned, opretter systemet først et spektrogram af teksten, en visuel gengivelse af, hvordan talen skal lyde. Dette billede sendes gennem Googles eksisterende WaveNet-algoritme, som bruger billedet til at producere ekstremt naturlig lydende menneskelig tale.

hvor høj er bruce arians

Ved hjælp af denne metode rapporterer forskerne, 'Vores model opnår en gennemsnitlig meningsscore (MOS) på 4,53, der kan sammenlignes med en MOS på 4,58 for professionelt optaget tale.' (En gennemsnitlig meningsscore er et telekommunikationsudtryk, der måler, hvor sandt noget i virkeligheden lyder.)

Som Googles lydeksempler viser, kan Tacotron 2 fra sammenhæng registrere forskellen mellem substantivet 'ørken' og verbet 'ørken' samt navneordet 'nuværende' og verbet 'til stede' og ændre dets udtale i overensstemmelse hermed. Det kan lægge vægt på store bogstaver og anvende den rette bøjning, når de stiller et spørgsmål snarere end at afgive en erklæring.

Og det kan generere tekst, der lyder så meget som menneskelig tale, at det er svært eller umuligt at kende forskellen. Hvis du vil se, hvor svært det er, skal du gå til Googles side med lydeksempler , og rul ned til det sidste sæt prøver, med titlen 'Tacotron 2 eller Human?' Der finder du Tacotron 2 og en rigtig person, der hver siger sætninger som: 'Den pige lavede en video om Star Wars læbestift.'

SPOILERADVARSEL: For at teste dig selv skal du lytte til eksemplerne og gætte, hvad der er, inden du læser resten af ​​denne kolonne.

Så hvilke eksempler er tekst-til-tale, og hvilke er en ægte menneskelig stemme? Googles ingeniører siger ikke, men de har efterladt en meget stor anelse. Hver af .wav-fileksemplerne har et filnavn, der indeholder enten udtrykket 'gen' eller 'gt.' Baseret på papiret er det meget sandsynligt, at 'gen' angiver tale genereret af Tacotron 2, og 'gt' er ægte menneskelig tale. ('GT' står sandsynligvis for 'jordens sandhed', et maskinlæringsudtryk, der grundlæggende betyder 'den virkelige aftale'.)

Forudsat at dette er korrekt, er her svarene på testen:

bob harper er han gift

'Den pige lavede en video om Star Wars læbestift.'

Prøve 1: Virkelig menneske

Prøve 2: Tacotron 2

'Hun fik en doktorgrad i sociologi fra Columbia University.'

Prøve 1: Tacotron 2

Prøve 2: Virkelig menneske

'George Washington var den første præsident for De Forenede Stater.'

Prøve 1: Tacotron 2

Prøve 2: Virkelig menneske

Janice Dickinsons nettoværdi 2015

'Jeg er for travl til romantik.'

Prøve 1: Virkelig menneske

Prøve 2: Tacotron 2

Hvor mange fik du ret? Og kunne du virkelig se forskellen, eller skulle du bare gætte?