Wat is de beste voice cloning tool en werkt het in het Nederlands? Wij testen de 5 beste apps/ tools met uitleg. Er zijn twee stem kloon winnaars.
Inleiding
AI voice cloning of in goed Nederlands het klonen van stemmen met behulp van kunstmatige intelligentie (AI), heeft de afgelopen tijd een stormachtige ontwikkeling doorgemaakt en is ook via diverse media veelvuldig in de publiciteit geweest.
In dit artikel gaan we eens een keer niet heel diep in op 1 specifieke tool maar trekken we het breder. We bekijken 5 verschillende tools, zowel gratis als betaald. Ook onderzoeken we met welke tools er voice cloning in Nederlands (Dutch) mogelijk is. Maar eerst leggen we uit wat het is en hoe het werkt.
Heb je geen zin in deze uitleg, ga dan direct naar de 5 beste voice cloning tools. Wij raden echter aan de uitleg hieronder ook even te lezen omdat deze informatie bevat wat tot betere resultaten zal leiden.
Voice cloning behoort tot de meest populaire AI apps
Naast het genereren van AI-foto’s, AI-video’s en AI-muziek zijn AI-voice cloning apps bijzonder populair geworden. Het is niet alleen heel leuk om mee te spelen voor normale gebruikers. Ook voor bedrijven is het heel interessant, want de kosten zijn laag vergeleken met het inhuren van de originele stem of het inhuren van professionele stemacteurs.
We laten hier de begrippen copyright, auteursrechten en “stemrecht” even buiten beschouwing. Dit is nog een relatief nieuw gebied, waarover al rechtszaken zijn gevoerd en er zullen er nog vele volgen. Onthoud wel dat je niet zomaar even iemands stem kunt klonen om deze (publiekelijk) te gebruiken, zonder de expliciete toestemming van de eigenaar van de stem.
Wat is voice cloning met AI?
AI-Voice cloning is een proces, waarbij AI met behulp van een machine learning-algoritme een digitale kloon creëert van een menselijke stem. Na een kort of lang leerproces, kan de voicecloner app een realistische weergave van de originele stem maken, waarbij de AI elke gewenste woordcombinatie kan uitspreken in de stem die is gekloond. Dit kan bijvoorbeeld al door simpelweg het intypen van de tekst die de AI moet uitspreken, via text-to-speech.
Toepassingen
Voice cloning kan worden gebruikt voor allerlei professionele toepassingen, denk hierbij bijvoorbeeld aan:
- Persoonlijke assistenten
Met een gekloonde stem kan je personal assistents meer gepersonaliseerd en natuurlijker laten klinken, ook kan je hier kiezen voor een bekende stem uit jouw privé leven zodat het vertrouwder overkomt. - Entertainmentindustrie
In de entertainmentindustrie kan AI voice cloning worden ingezet voor het dubben van films of het creëren van virtuele personages in videogames. - Educatieve software
Door het voorlezen van teksten of het onderwijzen van lesstof met een stem die aangepast is aan de voorkeur van de gebruiker, kan de materie makkelijker worden opgenomen. - Hulpmiddelen voor mensen met spraakbeperkingen
Een goed voorbeeld hiervan is het opnieuw creëren van de stem van iemand die zijn spraakvermogen heeft verloren. Dit kan in een tekst-to-speech app die dat persoon zelf aanstuurt. Zo kan dat persoon zijn eigen vertrouwde stem weer gebruiken in plaats van een robotachtige stem. Dit is zowel fijn voor de persoon zelf als voor zijn naasten. - Audioboeken en podcasts
Dit is vooral handig bij creatie van gesproken inhoud in verschillende stemmen zodat je geen meerdere, verschillende, dure sprekers hoeft in te huren. - Leuk om mee te spelen
Dit is dan wel geen professionele toepassing maar voor veel mensen is voice cloning ook gewoon spielerei waarmee je uren zoet kan zijn, om je eigen naasten mee te verrassen.
Hoe werkt voice cloning?
De technologie achter voice cloning kent een aantal stappen.
Eerst worden een of meerdere audiobestanden verzameld van de doelstem. Deze bestanden worden gebruikt als trainingsdata. Dit kan via reeds opgenomen audio files, maar de audio kan ook live worden ingesproken.
De software analyseert vervolgens de audio om specifieke kenmerken van de stem vast te stellen, zoals toon, tempo, intonatie en uitspraak. Dit is de analyse fase. De gegevens worden opgesplitst in individuele geluidsgolven, zodat de AI deze kan begrijpen. De AI labelt deze geluidsgolven met het bijbehorende foneem, de kleinste eenheid van een geluid in taal. Het systeem kan vervolgens verschillende spraakpatronen identificeren.
Vervolgens wordt door de AI en Machine Learning een model getraind om deze stemkenmerken te repliceren. Dit proces is complex en vereist geavanceerde algoritmes om de nuances van de stem nauwkeurig na te bootsen.
Zodra het model getraind is, kan de AI nieuwe woorden en zinnen genereren die klinken alsof ze door de originele spreker zijn uitgesproken, zelfs als die woorden of zinnen nooit door de persoon zijn gebruikt.
Hoewel de uitvoerstem technisch synthetisch is, klinkt deze veel menselijker en echter dan een traditionele tekst-voorlees-stem, omdat deze AI versie is getraind op basis van een echte menselijke stem.
Aandachtspunten als je de audio input aanlevert
Zorg ervoor dat als je jezelf wilt voice klonen dat je je stem op een rustige plek opneemt, zodat er geen achtergrondgeluiden te horen zijn. Afwisselend snel en langzaam spreken geven de voice cloning technologie een dieper inzicht in de nuances van de doelstem. Het gebruik van verschillende intonaties en emoties tijdens het trainen van het systeem zal ook leiden tot een betere output van de generatieve stem.
Sommige voice cloning apps of sites beweren aan 30 seconden audio input genoeg te hebben. Op zich kan dat wel, maar dit zal geen top prestaties leveren. Over het algemeen geldt hoe meer audio je als input aanlevert, des te beter zal het eindresultaat zijn. Het is even op het begin wat meer werk, maar dan heb je ook wat.
De verwerkingstijd van de training varieert dan ook met de grootte van de dataset die is ingevoerd. Een grotere dataset verbetert de nauwkeurigheid van de aangepaste stem, maar verlengt ook de verwerkingstijd. Bij veel input kan het soms wel uren duren voordat de spraakmodeltraining voltooid is. Als je minder veeleisend bent en slechts weinig input geeft, dan kan het binnen een paar minuten of zelfs korter klaar zijn, maar het resultaat is dan ook beduidend minder.
De 5 beste AI voice cloning sites en apps
Hieronder volgt een overzicht van de vijf beste AI voice cloning tools die op dit moment beschikbaar zijn:
Heygen
HeyGen is een van de beste tools voor voice cloning en video creatie.
Met meer dan 300 stemmen beschikbaar in 40+ talen (ook in het Nederlands), maakt HeyGen het mogelijk om teksten te transformeren in AI-gestuurde, mensachtige stemmen.
Deze stemmen kunnen daarnaast worden gesynchroniseerd met digitale avatars, waardoor je heldere voice-overs krijgt die automatisch worden aangepast aan je digitale avatar. Ook is het mogelijk jouw tekst met jouw stem perfect in een andere taal te laten uitspreken.
De creatie van aangepaste avatars is een opvallend kenmerk van HeyGen, waarbij gebruikers avatars kunnen selecteren die verschillende etniciteiten, leeftijden en beroepen vertegenwoordigen. De bewegingen van de lippen van de avatars kunnen perfect worden gesynchroniseerd met de gesproken woorden, wat bijdraagt aan het realisme, ook als jouw tekst in een andere taal wordt uitgesproken.
De prijzen variëren van gratis tot $48 en lopen op tot $144 voor een duurder pakket bij afname van 12 maanden. De gratis versie is wel beperkt.
Heygen is zo’n uitgebreide tool dat we hier binnenkort een aparte review aan willen besteden.
PlayHt
PlayHT is een andere topper en is wereldwijd een hoog gewaardeerde voice cloner.
De tool biedt veel verschillende AI-stemmen en aanpassingsopties, waardoor het een top tool is voor podcasters, videomakers en hobbyisten.
Met PlayHT is het mogelijk ervoor te kiezen om een zeer grondige analyse te doen van je stem en veel audio input aan te leveren. Dit kost dan ook wel enige tijd voor de AI om het volledig te kunnen repliceren, maar het resultaat is er dan ook naar.
PlayHt behoort volgens velen tot de absolute top van de voice cloners en het bedrijf loopt vaak voorop in innovaties en de nieuwste ontwikkelingen.
Er is een gratis versie beschikbaar. De betaalde pakketten variëren van $31 tot $79.
PlayHT is beschikbaar in vele talen, stemmen en dialecten. Alleen al voor het Nederlands zijn er tientallen verschillende stemmen beschikbaar. Ook is het mogelijk te kiezen voor Dutch (Belgium), waarbij de Nederlandse taal met een Vlaams accent wordt uitgesproken.
Fliki
Op AI-tools.nl hebben we vorig jaar al een positieve Fliki review geschreven over het totale pakket wat ze aanbieden.
Naast de eerdere besproken onderdelen is Fliki tevens al geruime tijd bezig met voice cloning en in onze ogen is Fliki een goede nummer 3 op dit gebied.
Fliki biedt AI-generatie van geschreven tekst naar hoogwaardige audio. Hierbij kan je dus ook jouw eigen stem inlezen en inzetten om het Text-to-speech onderdeel te gebruiken. Dit kan met hun hoogwaardige voice cloning tool waarmee je een digitale tweeling van je stem kan creëren, waardoor je content gepersonaliseerd wordt.
Ook Fliki heeft een gratis probeer versie beschikbaar. De betaal pakketten kosten $21 of $66 en kunnen worden gebruikt voor 75 talen waaronder Nederlands.
Descript
Descript is een audio- en videobewerkingsapp die vorig jaar al in meerdere artikelen is genoemd.
Vandaag kijken we alleen kort naar het onderdeel waarmee je voice cloning kan doen.
Voice cloning werkt via de tool Overdub, die je toestaat een sample van je stem op te nemen en deze vervolgens te klonen. Daarna kan het tekst-naar-spraak-transformatie uitvoeren met behulp van AI op basis van een geleverd script. Je kunt het zelf uitproberen met een gratis probeer versie.
De prijzen voor de betaalde pakketten bedragen $12 en $24. Dit is minder dan Heygen en PlayHT, maar daarvoor ontvang je ook minder functionaliteit en minder kwaliteit dan je bij Heygen en PlayHT kunt verwachten. Bij Descript kan je kiezen uit 29 talen. Ook hier is een Voice Cloner in het Nederlands aanwezig.
Resemble AI
Als laatste willen we Resemble.ai benoemen, welke redelijk goed is in het creëren van synthetische stemmen voor verschillende toepassingen. Resemble heeft als voordeel dat je met weinig audio input AI voices kan bouwen en binnen enkele minuten al aan de slag kan. Maar zoals we eerder hebben benoemd heeft dat als nadeel dat het resultaat van een minder hoge kwaliteit is.
Helaas is er van Resemble.AI geen gratis probeer versie. Het pro pakket kost $99 wat in onze ogen te duur is voor wat ze bieden. Wel is er een mogelijkheid om voor een bedrag van $ 0,006 per seconde aan de slag te gaan. Dit lijkt goedkoop, maar dit kan ongemerkt snel oplopen als je aan het testen en experimenteren bent.
Resemble is beschikbaar is 35 talen waaronder Nederlands
Gratis AI Voice Cloning.
Bij alle genoemde tools hierboven m.u.v. Resemble.AI is het mogelijk voor korte of langere tijd gebruik te maken van gratis voice cloning faciliteiten. We moeten er wel bij zeggen dat zodra je serieus aan de slag wilt, de gratis voice cloning pakketten waarschijnlijk tekort zullen schieten en dat je zal moeten upgraden naar een betaalde versie.
Conclusie en samenvatting
AI Voice cloning is het afgelopen jaar enorm verbeterd met behulp van de snelle technologische ontwikkelingen op het gebied van kunstmatige intelligentie en machine learning. Mits goed getraind zijn sommige stemmen nauwelijks meer te onderscheiden van de originele stem.
De beste AI voice cloning tools die er op dit moment zijn, zijn in onze ogen Heygen en PlayHT. Beide tools scoren hoog op het gebied van kwaliteit. Heygen wordt op het gebied van gebruikersgemak iets beter beoordeeld. Ook worden de gepersonaliseerde avatars en bijna perfecte lipbewegingen hoog gewaardeerd.
Play HT scoort weer wat hoger op het gebied van text to speech faciliteiten, bijvoorbeeld voor het omzetten van een blogpost naar audio. Ook scoort PlayHT beter op gebied van integratie met andere diensten zoals bijvoorbeeld met WordPress of het gebruiken van stemmen van andere platformen die je via een interface makkelijk kunt importeren en vervolgens kunt inzetten op het platform van PlayHT.
Mocht je serieus aan de slag willen met Voice cloning dan adviseren wij eerst de tools van Heygen en PlayHT te proberen. De overige genoemde tools in ons artikel zijn zeker ook niet slecht, maar blijven qua prestaties en functionaliteiten in de meeste gevallen net wat achter.