
Bis jetzt habe ich 41 der insgesamt 66 Kapitel des Hörbuchs meines Thrillers Kein Grab so tief (Öffnet in neuem Fenster) produziert.
Wie gesagt (Öffnet in neuem Fenster) benutze ich dafür die KI von ElevenLabs (Öffnet in neuem Fenster), die eine echte Stimme verwendet, die ich mir dafür ausgesucht habe.
Ich komme nur relativ langsam voran, weil ich die Aufnahmen intensiv bearbeite. Falls es euch interessiert, wie das im Einzelnen aussieht, hier ein paar Beispiele:

Das Bild zeigt einen Screenshot von einem kurzen Textausschnitt und wie er auf der Seite von Elevenlabs aussieht, nachdem ich ihn bearbeitet und die entsprechende Passage vertont habe.
Das Icon ganz links bedeutet, dass der entsprechende Absatz mit der Stimme “Mila” vertont wurde. Deshalb das M. Man kann nämlich einen Text, etwa die Dialoge, von unterschiedlichen Stimmen sprechen lassen. Das war mir jedoch für mein erstes Hörbuch dieser Art zu kompliziert. Normalerweise haben Audiobooks, die keine Hörspiele sind, ja auch nur eine Sprecherin oder einen Sprecher.
Das Schlosssymbol bedeutet, dass ich die betreffenden Passagen “geschlossen”, also mit einem Lock versehen habe, weil ich mit der Aufnahme zufrieden war. So kann ich nicht durch unbedachtes Klicken versehentlich etwas verändern. Ich kann das Schloss aber wieder entfernen, wenn ich etwas nachbessern möchte.
Sogenannte Tags kann man in eckigen Klammern hinzufügen, wenn man sich eine bestimmte Aussprache für eine Wort oder mehrere wünscht. Etwa [flüsternd]. Dann macht die Stimme genau das.
Oder: [spanisch]. Ihr seht hier auch gleich noch einen Grund, weshalb das Vertonen so lange dauert. Manchmal muss man nämlich etwas herumspielen, um das gewünschte Ergebnis zu erzielen. Das Tag [spanisch] erzeugte leider keine entsprechende Aussprache von “Gimenez”, das Tag [spanisch aussprechen] dagegen zu Glück schon.
Warum? Keine Ahnung ¯\_(ツ)_/¯
Die KI von ElevenLabs ist einfach etwas kapriziös, wie andere KIs wohl auch.
Im Originaltext heißt es übrigens: „Ja. Die anderen haben am Wochenende frei, denn die Familie ist verreist.“
Für die Audioversion habe ich “antwortete die Frau” eingefügt.
Ich ergänze immer mal wieder eine zusätzliche Nennungen der Sprechenden, damit beim Hören klar ist, wer gerade redet. Beim Lesen lässt sich das leichter erkennen, weil es einen neuen Absatz gibt, wenn jemand anderes spricht.
Außerdem steht in diesem Manuskript jetzt “VERREIST”. Oder ganz am Anfang “WAS”.
Großbuchstaben signalisieren der KI, dass sie das betreffende Wort betonen soll. Was oft funktioniert wie gewünscht, manchmal aber auch nicht. Hier hat es geklappt. Deshalb steht das alles jetzt so in den “geschlossenen” Absätzen.
Nächstes Beispiel:

Bemerkung am Rande: Hier habe ich einmal zu eurer Information die Beschreibung der Stimme “Mila” mit fotografiert, die aufleuchtet, wenn man mit der Maus über das Symbol dafür fährt.
“Ausdrucksstark” und “selbstsicher” passt ganz gut zu einem Thriller, finde ich, und außerdem zu meiner Hauptperson, der Privatdetektivin Lita Vargas, aus deren Perspektive die Geschichte erzählt wird.
Damit man die Sprechenden unterscheiden kann, obwohl ich nur eine Stimme (die von Mila) verwende, benutze ich bei manchen Personen spezielle Tags. Hier das Tag [männliche Stimme], das eine etwas tiefere Tonlage erzeugt, die aber auch als Frauenstimme durchgehen kann. Sie habe ich für Victoria, die Gerichtsmedizinerin, gewählt, die ziemlich viele Szenen mit Lita (etwas höhere Stimme) gemeinsam hat. Für einige männliche Figuren habe ich [tief] benutzt, was eine noch etwas tiefere Stimme erzeugt.
Außerdem sieht man hier, dass ich Pausen von 2,3 Sekunden am Ende des Kapitels und nach der Nennung des nächsten Kapitels eingefügt habe. Auch das ist also möglich. Allerdings wird der Wunsch nach diesen Pausen zwar meistens, aber nicht immer beachtet. Etwas, das ich mir noch einmal anschauen muss.

Statt “Keine Ahnung” wie in diesem Screenshot steht im Original „Ich will verdammt sein, wenn ich das weiß.“ Aber wenn die Betonung trotz aller Versuche nicht ausfällt, wie ich es möchte, wie es hier der Fall war, ändere ich schon mal etwas am Text. Wähle also eine Formulierung, die das Gleiche bedeutet, jedoch ein besseres Hörergebnis erzeugt.
Das Tag [langsam] bewirkt nicht nur eine langsamere Sprechweise, sondern auch, dass die Stimme weniger mädchenhaft und fröhlich klingt, was manchmal überhaupt nicht passt.
Das und anderes habe ich durch trial and error herausgefunden. Beziehungsweise durch mehr oder weniger verzweifeltes Herumprobieren, wenn mir etwas so gar nicht gefiel.
So habe ich auch entdeckt, was man tun kann, wenn die Stimme eine Silbe am Satzende verschluckt. Etwa bei “was sie sagte.” Daraus mache ich mit einem Bindestrich “was sie sagt-e.” und erreiche so eine erfreulich klare Aussprache. Für dieses Beispiel habe ich kein Bild. Ihr müsst es mir einfach glauben ;-)
Vor “Caramba!” steht übrigens, wie ihr vielleicht gesehen habt, kein Tag, denn die Stimme hat das Wort als spanisch erkannt und es entsprechend ausgesprochen. Das passiert recht häufig, aber nicht immer.

In dem Beispiel oben seht ihr unter anderem, wie ich SUV im Moment schreiben muss, um die gewünschte Aussprache zu erreichen: es ju wi. Wie ich in diesem Post (Öffnet in neuem Fenster)erwähnt habe, wechselt die Schreibweise, die die richtige Aussprache erzielt. Warum? Ich erwähnte, glaube ich, bereits, dass die KI kapriziös sein kann.

Im Bild oben ist ein Textabschnitt dunkler markiert, was nur bedeutet, dass ich gerade damit gearbeitet habe, als der Screenshot entstand.
Hier habe ich mal wieder den Text geändert. Aus “Phhhh” wurde “PPhhhh”, weil Letzteres, aber nicht Ersteres den gewünschten Laut erzielte.
Es gibt noch eine weitere Textänderung. Allerdings war dieses Mal nicht eine suboptimale Betonung der Grund.
Im Original steht: “Zumal sich unser lieber Comandante Velázquez ja anscheinend schon auf einen Suizid festgelegt hat.“ Aber leider weigert sich die KI meistens (nicht immer, das wäre zu konsequent ;-) ), bestimmte Wörter wie “Suizid”, “Selbsttötung” und “Selbstmord” auszusprechen.
Auch im Fall solcher Arbeitsverweigerungen muss ich mir dann eine andere Formulierung einfallen lassen. Welche anderen Begriffe die KI auch nicht mag, könnt ihr in diesem Post (Öffnet in neuem Fenster) lesen.
Insgesamt sieht man an den verschiedenen Beispielen wohl, dass ich einige Arbeit investiere, um ein möglichst gutes Ergebnis zu erzielen. Speziell die Dialoge, also die wörtliche Rede, erfordern bisweilen eine besonders intensive Überarbeitung. Damit sie richtig klingen, also so, wie ich es mir beim Schreiben vorgestellt habe.
Andererseits illustrieren die vielen unbearbeiteten Absätze, dass die KI, aus meiner Sicht zumindest, eine ziemlich gute Arbeit macht.
Ich hoffe, dieser Einblick in meine Hörbuch-Werkstatt war interessant und unterhaltsam für euch. Und hat euch überzeugt, dass mein mit KI erzeugtes Audiobook zumindest kein “AI slop” sein wird.