-

Der große KI-Stimmen-Realitätscheck

FFH MEDIENGRUPPE

Lachen, Flüstern, Dialekt - KI-Stimmen im Härtetest

Nachrichten, Werbespots, Podcasts, Hörspiele, Service-Telefone - KI-Stimmen begegnen uns immer häufiger. Und sie werden immer besser.

Wir wollen herausfinden: Wie flexibel, steuerbar und realistisch sind aktuelle synthetische Stimmen wirklich? Und lösen sie das Versprechen ein, sich wie von Regisseuren lenken oder dramatisch prompten zu lassen?

Kann KI Emotionen lernen?

Einer der Kritikpunkte an synthetischen Stimmen ist: Sie haben keine emotionale Tiefe. Wie wandlungsfähig KI-Stimmen sein können, liegt an der verwendeten Text-to-Speech Technologie (TTS) dahinter.

Bei den ersten Versuchen, den menschlichen Stimmapparat nachzubilden, haben Forscher Worte aus einzelnen Lauten, den Phonemen zusammengesetzt. Damit werden die Worte korrekt ausgesprochen - ein längerer Text klingt aber monoton.

Seit Computer so leistungsfähig sind, dass wir künstliche neuronale Netze mit Milliarden von Parametern trainieren können, haben KI-Stimmen einen gewaltigen Sprung gemacht. Das US-Unternehmen ElevenLabs war im Jahr 2023 eines der ersten, das ein KI-Modell mit tausenden Stunden von Hörbüchern und Dialogen trainierte.

In unserem Blog-Beitrag "Wie KI-Stimmen die Audiowerbung revolutionieren" gibt es viele Hörbeispiele zur Entwicklung der synthetischen Stimmen von den 1980er Jahren bis heute.

Stimmen erkennen Kontext

Durch das Training konnten synthetische Stimmen zum ersten Mal passend zum Textinhalt sprechen. Ein Ausrufezeichen etwa bewirkte eine lautere Stimme. 

ElevenLabs beschreibt in der Online-Dokumentation, wie man die Stimmen beeinflussen kann, indem man im Kontext der wörtlichen Rede Sprecher-Zuweisungen macht:

„Du gehst?" fragte sie, ihre Stimme zitterte vor Traurigkeit. "Genau das!" rief er triumphierend aus.

Diese Vorgehensweise ist dem Training mit Hörbüchern geschuldet. 

Wie kann man aber die Ausdrucksweise der Stimmen steuern, ohne dass die Stimme auch die Anweisungen vorliest?

Roboter lernt sprechen, Radio Creator AI-Tools, KI-Illustration

Prompten & Steuern: Wie "dirigiert" man eine KI-Stimme?

Die neuronalen Netze von Bildgeneratoren werden mit Millionen von Bildern und einer zugehörigen Bildbeschreibung trainiert. So können beim Generieren durch Prompts die richtigen Bereiche im neuronalen Netz getriggert werden, um das im Prompt beschriebene Bild zu erzeugen.

So ähnlich funktioniert das bei den KI Stimmen. 

Google hat im Juli 2025 seine Gemini-Stimmen vorgestellt, die auf solche Beschreibungen oder Regie-Anweisungen reagieren können. 

Die beschreibenden Tags werden in eckige Klammern gepackt:

[laughs], [wheezing], [whispers], [sighs], [sarcastic], [curious], [excited], [emphasize]...

Zusätzlich kann man die Stimmen auf die Szenerie einstimmen, indem man sie zu Beginn beschreibt:

<description>Fast-paced and pointed spot. Speaker Laomedeia sounds young, playful and German. Speaker Sadachbia sounds young, German, and very energetic. No simultaneous speaking at the end. Speak in German.</description>

<name>Laomedeia</name>
<text>[playful] Lust auf Pizza?</text>

<name>Sadachbia</name>
<text>[energetic] Aber nicht irgendeine – [emphasize] DEINE Pizza!</text>

Mit Prompts prompten

Die Anweisungen an die KI-Stimmen sehen jetzt eher nach Programmiersprache als nach einfacher Anwendung aus. Genauso wie man Erfahrung im Prompten von Bildern oder Videos braucht (Prompt-Engineering), muss man etwas probieren bis man zum Voice-Prompt-Engineer wird.

Glücklicherweise hilft auch dabei die KI: Wir lassen uns den Text mit den richtigen Anweisungen von der KI erstellen.

In den Radio Creator AI-Tools gibt es einen Voice-Agenten, der genau darauf spezialisiert ist. Er weiß auch, auf welche Notation die Anbieter von KI-Stimmen (ElevenLabs, Google, Microsoft...) am besten reagieren. So kann man die Stimmen verschiedener Anbieter in einem Projekt zusammen verwenden.

Und der Voice-Agent wird wiederum von einer Chat-KI bedient. Für den User ist es so, dass er die ganze Produktion von der Idee, über die Auswahl von Stimmen und Hintergrundmusik in einem Dialog steuern kann. Das Video im Blog-Beitrag "Wie KI-Stimmen die Audiowerbung revolutionieren" zeigt den Ablauf.

Hören wir uns an, wie der Pizza-Dialog fertig produziert klingt.

Pizza-Printa

Pizza-Printa: 3D-Drucker druckt Pizza, Fantasie-Produkt der Radio Creator AI-Tools
© FFH MEDIENGRUPPE

Den braucht jeder: Pizza-Printa - Dein persönlicher 24/7 Pizza-Bäcker.

Experiment: Wie wandlungsfähig sind die Gemini KI-Stimmen?

Insgesamt 30 Stimmen hat Google so trainiert, dass sie miteinander in Dialog treten können und auf Anweisungen reagieren.

Auch ElevenLabs hat - kurz nachdem Google damit an die Öffentlichkeit kam - sein Stimmen-Modell V3 in der Alpha-Version vorgestellt. Im Herbst 2025 soll es über die Programmier-Schnittstelle für Entwickler verfügbar werden.

Das Klonen von Stimmen wird bei dieser Technik aufwendiger. Damit die einzelnen Emotionen gut abgebildet werden können, müssen für das Training entsprechende Sprecher-Aufnahmen vorliegen. Eine Stimme, die nur von einer flüsternden Frau trainiert wurde, wird man nicht zum Schreien bringen.

In unserem Experiment verwenden wir zwei der Gemini-Stimmen und geben den gleichen Stimmen unterschiedliche Aufgaben. Das Video zeigt die Ergebnisse.

© FFH MEDIENGRUPPE

Die Gemini-Stimmen Aoede und Algenib müssen sich in verschiedenen Genres beweisen.

Anwendungsbeispiele: Was kann man mit den Stimmen machen?

"Wow, was für ein Entwicklungs-Sprung", war unser erster Gedanke nach dem Experiment. 

Natürlich bleibt auch die neue Stimmen-Generation hinter dem was Profi-Sprecher leisten, zurück. Es gibt aber immer neue Einsatz-Gebiete.

Noch vor zwei Jahren haben wir synthetische Stimmen ausschließlich für personalisierte Verkehrsmeldungen verwendet. Seit Anfang dieses Jahres produzieren wir mit den AI-Tools den Meditations-Podcast "Wohlfühlzeit". Von der Ideen-Findung, über die Recherche bis zum Texten, unterstützt die KI unsere Redaktion. Gesprochen wird der Podcast von der Stimme "Colin Calm", die wir speziell für die "Wohlfühlzeit" gepromptet haben. 

Website-Artikel im Podcast-Stil mit zwei Stimmen vertonen, komplizierte Themen von der KI recherchieren und zu einem Info-Podcast aufbereiten lassen sind weitere Anwendungen.

Im Bereich Studium und Fortbildung entstehen gerade innovative Angebote. Und wer mit den KI-Stimmen spielt, bekommt bestimmt weitere Ideen für neue Audio-Formate. Das KI-Stimmen Modul in den Radio Creator AI-Tools ist eine optimale Spielwiese dafür.


Artikel-Serie zu KI-Stimmen

  1. Wie KI-Stimmen die Audiowerbung revolutionieren
  2. Der große KI-Stimmen-Realitätscheck
  3. KI-Stimmen automatisieren (demnächst)

Hörbeispiele

Hier sind noch zwei Hörbeispiele aus dem Experimentier-Video:

  • Die Frischi-Werbung mit Musik produziert. Auch das hat die KI alleine gemacht.
  • Unser Blog-Artikel "Mit Emotionen übers Ohr in die Herzen" im Podcast-Stil in voller Länge. Die Idee ist: Artikel nicht einfach vorlesen lassen, sondern ein zum Inhalt passendes Hörerlebnis erzeugen.

Frischi aus dem Frische-Regal

Frischi aus dem Frische-Regal, KI-Visual zum KI-Werbespot der Radio Creator AI-Tools
© FFH MEDIENGRUPPE

Frischi hat das Zeug zum Kult-Getränk.

Mit Emotionen übers Ohr in die Herzen

Emotionale Radiowerbung, drei Frauen hören begeistert Radio, KI-Symbolbild

Unser Blog-Post "Emotionale Radiowerbung: So punkten hessische Firmen" im Podcast-Stil. Das ist das vollständige Audio-Beispiel aus dem Video.

Demo-Account anfordern und die AI-Tools testen

Wir verwenden Ihre E-Mail-Adresse, um Ihnen nützliche Informationen zur Verfügung zu stellen. Dem können Sie jederzeit - ohne Zusatzkosten - widersprechen. Mehr dazu in unserer Transparenzerklärung.

Vielen Dank für Ihr Interesse!

Wir melden uns in Kürze per E-Mail bei Ihnen.

E-Mail

Hinweis: Sie können sich jederzeit mit nur einem Klick wieder austragen, wenn Sie keine weiteren E-Mails erhalten möchten. Alle Informationen zum Schutz Ihrer Daten erhalten Sie in unserer Transparenzerklärung.

Vielen Dank für Ihr Interesse!

So geht es jetzt weiter...

  1. Öffnen Sie die E-Mail, die Sie soeben in Ihrem Postfach erhalten haben.
  2. Klicken Sie auf den Link in der E-Mail, um Ihre E-Mail-Adresse zu bestätigen.

Bitte beachten Sie, dass wir Ihnen erst dann weitere Informationen zuschicken dürfen, wenn Sie Ihre E-Mail Adresse bestätigt haben.

E-Mail-Adresse bestätigen

Hinweis: Sie können sich jederzeit mit nur einem Klick wieder austragen, wenn Sie keine weiteren E-Mails erhalten möchten. Alle Informationen zum Schutz Ihrer Daten erhalten Sie in unserer Transparenzerklärung.

Über uns

Die FFH MEDIENGRUPPE ist einer der reichweitenstärksten Radioanbieter in Deutschland und seit über drei Jahrzehnten deutlicher Marktführer im hessischen Radiomarkt. Mit uns erreichen Sie jeden Tag 3,9 Millionen Menschen.​

Quelle: ma 2025 Audio II

Ihr Kontakt zu uns

Zahlreiche Kunden in Hessen und der Region vertrauen uns bereits seit vielen Jahren

Mehr Audio-Wissen
Inhalt wird geladen
FFH MEDIENGRUPPE
nach oben Kontakt