Generativ AI i kommunikation

AI-KOM: Testar, utvärderar och jämför AI-verktyg

Skapa översatt video med Elevenlabs

Illustration med tecknad mun med pratbubblor och tekniska detaljer.
Illustration skapad av DALL-E.

Webbtjänsten Elevenlabs kan skapa en AI-modell av din egen röst. Jag testade att använda den för att göra en engelsk version av en utbildningsvideo och kan konstatera att AI-modellen av min röst pratar bättre engelska än vad jag gör.
 
I mitt jobb som webbkoordinator ingår att spela in instruktionsvideor. I samband med att Drupal fick bättre stöd för att bädda in video från Canvas Studio skapade jag en instruktionsvideo på sidan Bild, video, dokument och annan media.

Under senare år har efterfrågan på engelska versioner av våra instruktioner ökat. När det gäller text har vi fått god hjälp av universitetets översättare, men också av externa översättare då det handlat om större mängder text. Då det gäller talad engelska bestämde jag mig för att testa webbtjänsten Elevenlabs i stället för att skämma ut mig med min knaggliga skolengelska.
 
Då den svenska videon var färdig så hade jag både ett manus på svenska och en två och en halv minut inspelning av min egen röst. Elevenlabs behöver en inspelning som underlag för den röstmodell som den ska skapa. Jag började med att ladda upp speakern från instruktionsvideon. Det man laddar upp behöver inte ha något innehållsmässigt samband med det man sedan vill skapa, utan det handlar om hur rösten ska låta – och ju mer material den har att lära sig utifrån, desto bättre.
 
Därefter fuskade jag lite grand och använde tjänsten DeepL för att enkelt översätta manuset från svenska till engelska. Jag är verkligen ingen översättare, men kunde rätta några saker som jag tyckte blev konstiga.
 
Sista steget i Elevenlabs var att klistra in det engelska manuset och låta den generera den engelska speakern med hjälp av AI-modellen av min röst. Resultatet blev förvånansvärt bra! Min högst personliga bedömning är att min modell överträffar mig då det gäller engelskt uttal. Se videon här.

Det ska dock sägas att det krävdes en del handpåläggning i videoredigeringsprogrammet för att synka de talade instruktionerna med vad som faktiskt händer på skärmen. Men det är en utmaning oavsett språk. Då du spelar in videoinstruktioner behöver du antingen spela in bild och ljud samtidigt, eller tänka väldigt noga då du skriver ditt manus. Det är lätt att i farten skriva (och läsa in) ”Välj Öppna i Arkiv-menyn” trots att det i verkligheten kommer att ske i omvänd ordning (”Klicka på Arkiv-menyn och välj sedan Öppna”).

Då du laddat upp din röst och skapat din röstmodell så behöver du inte göra den delen flera gånger. Då är modellen färdig och redo för att användas på annat textmaterial.

13 december 2023

Inlägget postades i

Ljud Översättning

Write a comment

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *