Schützt Audible seine Audiobooks vor KI Voice cloning?

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.445
Erhaltene Likes
8.011
Ich bin gerade dabei ein KI Stimmmodell mit der Stimme von David Nathan zu trainieren. Irgendwie kommt aber schon bei den ersten quality checks nur übelst zerhacktes Material raus. Deswegen meine Frage an unsere Audiocracks. Kann das sein?
Ich benutze ComfyUI, zuletzt mit VoxCPM.
 

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.445
Erhaltene Likes
8.011
Jo, würde mich auch interessieren. Vielleicht geht's ja viel einfacher als meine Versuche.
 
Kommentieren

Knabix

Pirat
Registriert
7 August 2025
Beiträge
4
Erhaltene Likes
6
Ich kann euch da in etwa durchleiten. Ich mache das nicht mehr, da mein eigentliches Ziel war, normale Bücher in Hörbücher umzuwandeln. Das hat mir dann aber pro Buch zu lange gedauert, und ohne richtiges Gefühl beim Sprechen fand ich das immer blöd.

Ich habe folgendes Projekt genutzt:
Bitte, Anmelden oder Registrieren um die Links zu sehen!
Wie man das Ding zum Laufen bekommt, ist von System zu System unterschiedlich, aber ChatGPT, Gemini und YouTube sind da eure Freunde.

David Nathan hat „Ready Player One“ gelesen. Ich habe das Hörbuch gefunden;). Dort habe ich mit Audacity dann einfach gute 3–5 Minuten ausgeschnitten (gut im Sinne von: Es wurden normale Wörter gesprochen, die auch eine KI nachsprechen könnte), und die stummen Sekunden von ca. 3 s auf 1 s gekürzt.

Jetzt einfach auf „Trainieren“ drücken. Sobald er fertig trainiert hat: Den gewünschten Text eingeben, und nach ein paar Sekunden, Minuten oder auch Stunden (je nach Länge des Textes) ist das auch schon fertig.

Ist wie gesagt schon ein bisschen her, und ich weiß auch nicht, ob dieses Projekt auf dem aktuellen Stand der Dinge ist, aber es sollte nicht allzu schwer sein, bessere oder ähnliche Projekte zu finden.

Falls es doch nicht klappt, könnt ihr euch gerne melden, dann helfe ich gerne weiter :) Müsste mir das halt auch nochmal alles anschauen
 
Grund: Mir fällt gerade auf das du genannt hattest welches Projekt du nutzt und ich offensichtlich ein anderes genutzt hatte. Sorry
Kommentieren

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.445
Erhaltene Likes
8.011
Nice. Darauf bin ich noch nicht gestoßen. @KOLWE-X Challenge akzeptiert?😁 Danke. Das schau ich mir morgen mal genauer an.💪
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.445
Erhaltene Likes
8.011
Mhhh irgendwie finde ich die Funktion zum Voice cloning nicht. Nachher mal weiterstöbern. Sieht in der aktuellen Version bestimmt etwas anders aus, als du es gesehen hast. @Knabix
 
Kommentieren

Knabix

Pirat
Registriert
7 August 2025
Beiträge
4
Erhaltene Likes
6
Hmm, tatsächlich. Früher hab es ein Feld in den man Alternativ einfach Text eingeben konnte. Jetzt wird eine Datei erwartet.
Die Stimme kann man einfach bei Voices reinziehen. Bei File wird dann halt das Buch erwatet :/

Einfach irgendeinen text als PDF exportieren sollte gehen.
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.445
Erhaltene Likes
8.011
Ich schau mal ob ich das klonen von David Nathan mit nem anderen Tool erstelle und einbauen kann. Lustig bzw auffällig ist das das Klonen von Stimmen in fast jedem Project mal vorhanden war, neuerdings aber total vernachlässigt wird.
 
Kommentieren

notimp

Pirat
Registriert
25 Dezember 2024
Beiträge
13
Erhaltene Likes
16
Wat?

Ok, baseline.

Fast jede open source TTS Lösung auf machine learning Basis erlaubt das Klonen von Stimmen anhand von wenigen Sekunden langen Audio samples.

Dabei gibt es zwei Probleme:

1. Die Stimme die am Ende rausfällt muss für Audiobooks so gut, und die TTS AI so robust sein, dass -
a. Möglichst wenig Ermüdung nach langer Zeit auftritt
b. Die AI auch ohne segmentieren, oder bei bewusst eingesetztem Segmentieren bei langen Texten nicht in nonsens output abdriftet. (Je kleiner die Modelle, desto größer die Chance, dass du nur in kleineren Segmenten arbeiten kannst.)

2. Je größer die Modelle desto mehr entfernt bist du von "deutlich" schneller als Realtime encoding. Das ist relevant, da du bei Audiobooks im besten Fall (Kokoro) von 20 Minuten encoding, und im schlimmsten von einem halben bis einem Tag encoding sprichst. Auf 200 Euro Grade nVidia Grafikkarten, mittels Cuda. Skaliert dann aber beinahe linear mit ner besseren Grafikkarte.

Die wichtigsten aktuellen Modelle kann man zB hier durchhören:

Bitte, Anmelden oder Registrieren um die Links zu sehen!

**Example outputs**, all using the same source text and same 15-second voice clone sample:

- [MiraTTS]
Bitte, Anmelden oder Registrieren um die Links zu sehen!
- [GLM-TTS]
Bitte, Anmelden oder Registrieren um die Links zu sehen!
- [IndexTTS2]
Bitte, Anmelden oder Registrieren um die Links zu sehen!
- [IndexTTS2 (with added emotional guidance voice sample)]
Bitte, Anmelden oder Registrieren um die Links zu sehen!
- [VibeVoice 1.5B]
Bitte, Anmelden oder Registrieren um die Links zu sehen!
- [Higgs Audio V2]
Bitte, Anmelden oder Registrieren um die Links zu sehen!
- [Higgs Audio V2 (a different voice this time, and at high temperature)]
Bitte, Anmelden oder Registrieren um die Links zu sehen!
- [Fish OpenAudio S1-mini]
Bitte, Anmelden oder Registrieren um die Links zu sehen!
- [Chatterbox]
Bitte, Anmelden oder Registrieren um die Links zu sehen!
- [Oute]
Bitte, Anmelden oder Registrieren um die Links zu sehen!

Alle anhand eines audio samples gecloned.

Für XTTSv2 samples - vielleicht hier ein wenig runterscrollen und reinhören (Geschwindigkeit anpassen nicht vergessen)
Bitte, Anmelden oder Registrieren um die Links zu sehen!

Wie sehr da von der Stimmqualität XTTSv2 von Coqui (siehe:
Bitte, Anmelden oder Registrieren um die Links zu sehen!
) mitkommt, sollte getestet werden.

Hier was Grok dazu halluziniert hat:
Bitte, Anmelden oder Registrieren um die Links zu sehen!


Hier ein reddit thread zum Verständnis:

edit: After more AI blabla:

i9Jsf10.png


Chatterbox multilingual ist bei geklonter Voice Qualität aktuell sehr weit oben, wahrscheinlich besser als XTTSv2.

Bitte, Anmelden oder Registrieren um die Links zu sehen!
hat aktuell keinen mutlilingualen support, aber der Frontend Entwickler scheint offen dafür hier nachzubessern, vielleicht hilft ihm ja wer, bei der Implementierung der Chatterbox Multilingual Pipeline mit deutschen samples, und dem coding.

Ansonsten muss ich sagen, dass ich aktuell auch kein besseres frontend für deutschsprachige TTS mit voice cloning habe.

Englishsprachig und ohne voice cloning ist aktuell wegen Kokoro TTS (haben sich von der open source Entwicklung verabschiedet, haben keine deutsche Stimme) was komplett anderes, da Sky (eine englische Stimme von ihnen) bei 1.2x Sprechgeschwindigkeit (Einstellung für die Generierung) via CUDA (Nvidia Grafikkarte) eben so verdammt schnell und gut ist, dass ein ordentliches Audiobuch mit einer GTX1660 Super in 20 Minuten rausfällt.

Audiblez ist hier das Projekt/Programm der Wahl:
Bitte, Anmelden oder Registrieren um die Links zu sehen!
-- ich lass die .wav files die da rausfallen mit
Bitte, Anmelden oder Registrieren um die Links zu sehen!
wandeln, da ich das finale Audiobook dann noch besser anpassen kann und multi core Audio encoding habe (default iPhone preset, 1 audio channel (mono), kein Frequenzcutoff, variable bitrate - reduziert die .wav Größe um 2/3). Vorsicht beim Import, 1, 2, 3 usw in Dateinamen müssen ggf mit 01, 02, 03 ersetzt werden sonst gibts bei der Reihenfolge Probleme. :)

Bei den anderen oben genannten TTS Lösungen sprechen wir von einem halben (4 Stunden) bis einem Tag Rechenzeit für ein Audiobuch, mit einer Nvidia Einsteiger Grafikkarte.

edit: Wer keine epubs, sondern nur pdfs hat - siehe: https://boerse.cx/thema/tut-e-book-erstellung-mit-eurem-smartphone-und-einem-pc.272142/ die Markup Datei die da rausfällt kann zur not auch mit jedem online markup to epub "service" tool kostenlos in ein epub gewandelt werden.
 
Zuletzt bearbeitet:
Kommentieren

KOLWE-X

...sucht das ONE PIECE
Registriert
23 August 2022
Beiträge
686
Erhaltene Likes
4.096
Ja genau... 😅
Ich checke gar nichts, aber ich find sowas spannend mitzulesen (y)
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.445
Erhaltene Likes
8.011
Wenn ich es endlich auch schaffe, kann ich ja versuchen etwas vorzubereiten wie sonst auch. Aber das muss erstmal fluppen. Mal sehen wann ich sturmfrei hab und mich am PC einnisten kann.
 
Kommentieren

Knabix

Pirat
Registriert
7 August 2025
Beiträge
4
Erhaltene Likes
6
Joa jetzt bin ich mal gespannt was hier noch so passiert :D gerne updaten, fange vielleicht dann wieder damit an :D

Ps: Für kleine und simple sätze.
Bitte, Anmelden oder Registrieren um die Links zu sehen!
(Der Tab in der Mitte) und hier (auf ca 2 Minunten Kürzen).
Es wird erwartet den Text von der Vorlage einzugeben:
Bitte, Anmelden oder Registrieren um die Links zu sehen!


Je nach anforderung eventuell genug
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.445
Erhaltene Likes
8.011
Ich habe jetzt mit Fish s1 Mini aus 60 Sekunden "Ready Player One" ein sauberes Sample erstellt und die ersten Passagen aus Dreamcatcher von Stephen King klingen schon richtig gut. Später versuche ich mal unsere Boardregeln vorlesen zu lassen.^^

Eure Tipps haben da SEHR geholfen. @Knabix und @notimp Danke!!
 
Zuletzt bearbeitet:
Kommentieren

notimp

Pirat
Registriert
25 Dezember 2024
Beiträge
13
Erhaltene Likes
16
Hier noch eine weitere aktuelle open weights TTS engine:

Bitte, Anmelden oder Registrieren um die Links zu sehen!

(Voice Qualität siehe Demo. Beste deutsche Lesestimmen: Bodega, Vivian)

Die läuft auf ner 3090 oder 4090 (je nach gewählter Modellgröße) gerade mal "Realtime", dh. 10-11 Stunden für ein Buch auf aktuellen Grafikkarten.

Sollte demnächst in open source Audiobook Generatoren auftauchen. :)
 
Kommentieren
Duckier

Sicher & Gratis VPN

Schütze deine Privatsphäre mit Duckier VPN — schnell, gratis und ohne Logs.

BlitzschnellKeine Geschwindigkeitslimits, kein Drosseln
Keine LogsDeine Aktivitäten bleiben privat — immer
Globales NetzwerkServer weltweit für beste Performance
100% KostenlosKeine Kreditkarte, keine versteckten Kosten
Oben