-

Wie KI-Stimmen die Audiowerbung revolutionieren

FFH MEDIENGRUPPE

So einfach war es noch nie - Werbespots mit KI-Stimmen produzieren

Das Erstellen von Werbespots war lange Zeit den Profis im Studio vorbehalten. Mit dem Vormarsch künstlicher Intelligenz und moderner Text-to-Speech-Technologien (TTS) wird die Produktion von Radiospots, Podcasts und Online-Audioanzeigen jetzt für alle zugänglich.

Insbesondere die Erstellung von Werbespots wird durch KI-Stimmen und Chat-basierte Generatoren revolutioniert. Nie war es einfacher und kostengünstiger, hochwertige Audioinhalte für Marketingkampagnen zu produzieren.

Dieser Artikel taucht tief in die Welt der KI-Stimmen Generatoren ein und zeigt, wie Sie mit einfachen Chat-Befehlen beeindruckende Ergebnisse erzielen können. Wir beleuchten die Funktionsweise, die Vorteile, stellen die besten Tools vor und geben praktische Tipps für die Erstellung überzeugender Werbeinhalte - ohne ein professionelles Tonstudio zu benötigen.

Was sind KI-Stimmen und wie werden sie erzeugt?

KI-Stimmen, auch bekannt als synthetische Stimmen oder Voice Over AI, werden durch Algorithmen der Künstlichen Intelligenz erzeugt. Der zentrale Prozess hierbei ist die Text-to-Speech (TTS)-Technologie, die geschriebenen Text in gesprochene Sprache umwandelt. Diese Technologie basiert auf Sprachsynthese und nutzt maschinelle Lernalgorithmen.

Die KI-Modelle werden dazu mit riesigen Mengen an Sprachdaten trainiert, um Muster in menschlicher Sprache zu erkennen - darunter Intonation, Betonung, Pausen und Emotionen. Zum Training dienen Hörbücher, Dialoge und andere Audio-Dateien. Der Stimmen-Generator ist anschließend in der Lage die gelernten Muster zu replizieren und daraus natürlich klingende Stimmen zu erzeugen.

Von roboterhaften zu menschenähnlichen Stimmen

Sprach-Synthese gab es schon in den 1980er Jahren. Die bekannteste künstliche Stimme dürfte die vom Physiker Stephen Hawking sein. Auch als die Entwicklung voranschritt und die Stimmen immer besser wurden, wollte er "seine" Stimme behalten.

Hörbeispiel Stephen Hawking

Die synthetische Stimme des Physikers Stephen Hawking. Erzeugt mit dem Online-Generator lingojam.com/StephenHawkingVoiceGenerator

In den vergangenen Jahren hat sich die Entwicklung der Sprachsynthese extrem beschleunigt. Microsoft brachte zum Beispiel Stimmen heraus, die sich mit einem Phoneme-Lexikon in der Aussprache steuern lassen. Als wir bei HIT RADIO FFH diese Stimmen noch für personalisierte Verkehrsmeldungen im Einsatz hatten, gab es ein großes Wörterbuch mit den Aussprache-Regeln für alle hessischen Orte.

Microsoft-Stimme Klaus liest Verkehrsmeldungen

Die Aussprache einzelner Worte lässt sich genau festlegen. Doch Klaus spricht etwas eintönig.

Anfang 2023 hat das New Yorker Startup ElevenLabs die Welt aufhorchen lassen. Gegründet wurde die Firma von einem ehemaligen Google-Mitarbeiter und einem Ex-Entwickler von Palantir, dem Hersteller von Polizei-Software.

Zum ersten Mal konnten wir Stimmen hören, die nach dem gleichen Prinzip wie ChatGPT, mit einer Transformer-Architektur, erzeugt wurden.

Damit waren die Stimmen in der Lage sich in der Ausdrucksweise dem Textinhalt anzupassen. Trainiert mit tausenden Stunden von Hörbüchern, hielten sich die ersten Stimmen streng an die Interpunktion. Ein Ausrufezeichen am Ende eines Satzes, konnte die Stimme Bella schon ärgerlich klingen lassen. Bella gehört inzwischen nicht mehr zum Repertoire bei ElevenLabs.

Bella wird ärgerlich

Durch das Ausrufezeichen am Ende des Texts, geht Bella etwas rabiat mit den Autofahrern um.

Die neueste Generation der ElevenLabs-Stimmen (Stand August 2025) kann mit Regie-Anweisungen im Ausdruck gesteuert werden. Wenn man einen Dialog mit mehreren Stimmen produziert, kann man jeder Stimme mitgeben, was zuvor gesagt wurde und welchen Text die nächste Stimme hat. So kann die Stimme darauf reagieren und es werden natürlichere Dialoge möglich.

ElevenLabs bietet eine riesige Bibliothek mit hunderten von KI-Stimmen an. Es ist möglich, neue Stimmen für einen speziellen Einsatzzweck mit einem Prompt generieren zu lassen. Auf diese Weise haben wir die Stimme "Colin Calm" erstellt, die im Meditations-Podcast "Wohlfühlzeit" bei HIT RADIO FFH zum Einsatz kommt.

Es gibt auch professionelle Sprecher, die über ElevenLabs ihre Stimme zur Verfügung stellen und dafür honoriert werden. Auch kann man Stimmen klonen.

Google hat im Juli 2025 insgesamt 30 Gemini-Stimmen veröffentlicht. Sie wurden speziell auf Dialoge trainiert und ermöglichen schon recht natürlich klingende Podcasts. Sie sind Teil der Google-Anwendung NotebookLM.

Das Besondere: Die Stimmen mit den auffälligen Namen wie Achernar, Zephyr oder Rasalgethi können lachen, rufen, traurig sein oder meditieren.

ZenFlow - Die KI-gesteuerte Meditations-Lampe

Meditations-Lampe ZenFlow, fiktives Produkt aus den Radio Creator AI-Tools

Die Gemini-Stimmen Puck und Laomedeia stellen uns ZenFlow vor. Das beruhigt total, ist aber auch total erfunden.

Schritt für Schritt: Vom Text zum fertigen Werbespot

Alle Aufgaben beim Erstellen eines Werbespots können inzwischen von der KI übernommen werden: Texten, Auswahl und produzieren der Stimmen und mixen mit Musik.

Das Ergebnis hängt dabei sehr stark vom verwendeten Prompt ab - den Anweisungen, die man der KI gibt.

Die Radio Creator AI-Tools verfolgen dabei einen neuen Ansatz: Die KI fragt in einem Chat-Dialog alle Informationen ab, die sie zum Texten und Produzieren des Werbespots benötigt. Etwa Informationen zum Werbekunden, Zielgruppe, Tonalität oder der Länge.

Die KI lässt sich den Text freigeben und macht Vorschläge für geeignete Stimmen. Schließlich kann man noch in verschiedene Musikbetten hineinhören bevor die Produktion beginnt.

Das folgende Video zeigt einen solchen Dialog zwischen Mensch und Maschine und als Ergebnis: einen Werbespot.

© FFH MEDIENGRUPPE

Die KI hat für den Werbespot die Gemini-Stimmen Achernar und Fenrir ausgewählt.

Radio Creator AI-Tools: KI-Werkzeuge für Agenturen, Medienhäuser und mittelständische Betriebe

Die AI-Tools sind eine Browser-Software, die Sprachmodelle von OpenAI (ChatGPT), Anthropic, Perplexity, Mistral oder Google bündelt. In einer großen Prompt-Sammlung sind viele erprobte Prompt-Vorlagen für alle möglichen Einsatzzwecke. Mehrere Bildgeneratoren und ein KI-Stimmen-Modul gehören zum Funktionsumfang. Mit KI-Arbeitsabläufen kann man Aufgaben automatisieren.

Einer dieser Abläufe ist das Erstellen von Werbespots.

Die Produktion verfeinern

Meistens gelingt ein guter KI-Werbespot nicht im ersten Anlauf. Der Text muss angepasst werden, Betonungen und Pausen sollen anders gesetzt werden oder wir wollen das Ganze nochmal mit anderen Stimmen hören.

Dann geht man mit dem bisherigen Spot ins KI-Stimmen Modul. Dort hat der Produzent die Auswahl aus über 180 Stimmen verschiedener Voice-Provider (ElevenLabs, Google, Microsoft). Die Stimmen der verschiedenen Anbieter können in einer Produktion zusammen verwendet werden.

Jetzt ist es möglich dem Aussprache-Wörterbuch neue Regeln hinzuzufügen, damit der Name des Kunden künftig richtig ausgesprochen wird. Die Sprechgeschwindigkeit kann angepasst und Musikbetten können ausgewählt werden. Dann wird die Produktion so oft neu generiert, bis das gewünschte Ergebnis erreicht wurde.

Der Weg von der Idee bis zum fertigen KI-Werbespot ist zwar nicht in wenigen Minuten gemacht - dennoch geht es viel schneller als in einem Tonstudio.

Das nächste Video zeigt das KI-Stimmen Modul im Einsatz.

Mit synthetischen Stimmen neue Audio-Formate entwickeln. In den Radio Creator AI-Tools warten dutzende KI-Stimmen darauf Podcasts, Dialoge, Werbespots oder Audio-Beiträge zu sprechen.

Tools & Plattformen: Ein Überblick

Text-to-Speech-Tools (TTS): Diese Tools wandeln Text in Sprache um und sind ideal für Voiceovers. 

  • ElevenLabs: Fortgeschrittene KI-Stimmen, große Stimmen-Bibliothek, Profi-Stimmen erhältlich, neue Stimmen generieren und klonen. Stimme wandeln (Speech to Speech). Über 70 Sprachen. Vergleichsweise teuer.
  • Murf.ai: Hochwertige Stimmen. Hunderte Stimmen, über 20 Sprachen, Klonen, Speech to Speech. Preise ähnlich ElevenLabs.
  • hume.ai: Octave ist ein LLM-basierter Generator mit sehr natürlich klingenden Stimmen. Neue Stimmen per Prompt erstellen, Emotionen steuerbar, Deutsch zurzeit nur mit amerikanischem Akzent.
  • LOVO AI: 500 Stimmen, 100 Sprachen, Klonen, Emotionen und Betonungen steuerbar.
  • Google AI-Studio: 30 Gemini-Stimmen liefern sehr natürliche Dialoge im Podcast-Stil. Gute deutsche Aussprache. Gefallen uns zurzeit am besten. Günstig.

Werbespot-Generatoren: Diese Tools texten, generieren KI-Stimmen und fügen Musik hinzu. Bei einigen kann man den fertigen Spot direkt bei Online-Radios buchen. Einige Beispiele:

  • more KI Spot Creator: Verwendet die Technologie von Sam Again.
  • werbespots.ai: Bezahlen per Paypal. Danach kann man den Spot herunterladen.
  • FUNKE ad.creator: Nutzt die Technik von aireal und AudioStack. Mit dem fertigen Spot können ausgewählte Radiosender angefragt werden.
  • RadioAdMaker: Spot generieren, Sendegebiet und Budget angeben. Bezahlen per Paypal.
  • Radio Creator AI-Tools: Das Erstellen von Werbespots im interaktiven Chat ist nur ein Teil der Funktionen. Wer auch Social Media bespielt, Bilder erstellt, Daten analysiert und Abläufe automatisieren möchte, ist bei den AI-Tools richtig.

Was es kostet

Bei den meisten Anbietern kann man die Stimmen kostenlos ausprobieren.

Für den Einsatz in einem Werbespot sollte man ein kostenpflichtiges Angebot wählen. Dann ist meist garantiert, dass die eigenen Daten nicht für Trainingszwecke verwendet werden und man darf die Stimmen kommerziell nutzen.

  • ElevenLabs bietet monatliche Tarife zwischen 5 und 1.320 Dollar an. Darüber hinaus wird pro Zeichen abgerechnet. Regie-Anweisungen werden auch zu den Zeichen gezählt. Für Profi-Stimmen können höhere Raten gelten.
  • Microsoft rechnet ebenfalls nach Zeichen ab - ohne monatliche Grundkosten.
  • Google zählt Input-Token (der eingegebene Text) und Output-Token (die generierte Stimme, 32 Token pro Sekunde). Output-Token sind teurer. Es gibt ein hohes, kostenloses Kontingent - dafür wird mit diesen Daten trainiert. Weil die Google-Stimmen sehr günstig sind, sollte man auf jeden Fall mindestens auf die Preisstufe 1 wechseln.

Durch die unterschiedlichen Tarif-Modelle lassen sich die Minutenpreise nur schätzen. Sie hängen von der Sprechgeschwindigkeit der KI-Stimmen ab und der Anzahl zusätzlicher Zeichen/Token, die für die Regie-Anweisungen benötigt werden. Für die Radio Creator AI-Tools haben wir folgende Werte ermittelt:

  • 1 Minute bei ElevenLabs kostet etwa 45,9 Cent.
  • 1 Minute bei Microsoft kostet etwa 5,7 Cent.
  • 1 Minute bei Google Gemini kostet etwa 3,9 Cent.

Pro und Contra KI-Werbespot

Die Vorteile von Werbespots, die mit Hilfe von künstlicher Intelligenz produziert werden, sind vielfältig:

  • Es geht sehr schnell: Mit den vorgestellten Generatoren kann man einen Spot in Minuten (mit Nachbearbeitung in Stunden) erstellen. Im Tonstudio kann es Tage dauern, auch weil Sprecher und Studio disponiert werden müssen.
  • Es ist viel günstiger: Auch wenn bei KI-Produktionen die Tools und KI-Stimmen bezahlt werden müssen und manchmal Monats-Abos nötig sind - die Gesamtkosten für die Spot-Produktion liegen deutlich niedriger.
  • Man kann mal was ausprobieren: Schnell ein paar Spot-Varianten von der KI produzieren lassen und das als Layout für eine Profi-Produktion verwenden.
  • Personalisieren: Das gleiche Spotmotiv für verschiedene Regionen, Filialen, Zielgruppen. Diese Art von Produktion lässt sich gut automatisieren.
  • Neue Kundengruppen: Werbung wird für kleinere Unternehmen interessant, die bislang noch gar nicht an Radiowerbung gedacht haben.
  • Moderne Akquise: Mit dem Laptop beim Kunden den Werbespot gemeinsam erstellen.
  • Mehrsprachig: Spots internationalisieren. Die KI-Stimmen können viele Sprachen sprechen.

KI-gestützte Werbespots haben auch Nachteile. Darauf sollten Sie achten:

  • Qualität und Emotionen der Stimmen: Profi-Sprecher sind für Spot-Produktionen unersetzbar. Sie haben eine enorme Wandlungsfähigkeit, können Betonungen exakt setzen und erzeugen damit eine große Wirkung.
  • Eingeschränkte emotionale Tiefe: KI-generierten Stimmen fehlt oft die Fähigkeit, komplexe Emotionen und Nuancen authentisch zu vermitteln.
  • Kreativität und Originalität: Sprachmodelle, gerade wenn sie nicht gut gepromptet werden, replizieren bekannte Muster. Ein erfahrener Texter kann KI-Texte als Vorschlag nutzen und packt dann die Sahne drauf.
  • Ethik und Recht: Bei allen für die Produktion genutzten Materialien muss das Urheberrecht geklärt sein. Bei geklonten Stimmen muss eine Regelung mit dem Sprecher getroffen werden.

Einfach mal ausprobieren

Mit KI-Stimmen zu experimentieren lohnt sich. Beim Herumspielen lernt man schnell, was zurzeit technisch möglich ist. Und die Entwicklung wird weiter schnell voranschreiten, weil die weltgrößten Unternehmen in diesem Bereich große Summen und viele Ressourcen investieren.

Zum Ausprobieren aller Arten von KI-Anwendungen und zum einfachen Produzieren von Werbespots, sind die Radio Creator AI-Tools ein guter Ausgangspunkt.

Demo-Account anfordern und die AI-Tools testen

Wir verwenden Ihre E-Mail-Adresse, um Ihnen nützliche Informationen zur Verfügung zu stellen. Dem können Sie jederzeit - ohne Zusatzkosten - widersprechen. Mehr dazu in unserer Transparenzerklärung.

Vielen Dank für Ihr Interesse!

Wir melden uns in Kürze per E-Mail bei Ihnen.

E-Mail

Hinweis: Sie können sich jederzeit mit nur einem Klick wieder austragen, wenn Sie keine weiteren E-Mails erhalten möchten. Alle Informationen zum Schutz Ihrer Daten erhalten Sie in unserer Transparenzerklärung.

Vielen Dank für Ihr Interesse!

So geht es jetzt weiter...

  1. Öffnen Sie die E-Mail, die Sie soeben in Ihrem Postfach erhalten haben.
  2. Klicken Sie auf den Link in der E-Mail, um Ihre E-Mail-Adresse zu bestätigen.

Bitte beachten Sie, dass wir Ihnen erst dann weitere Informationen zuschicken dürfen, wenn Sie Ihre E-Mail Adresse bestätigt haben.

E-Mail-Adresse bestätigen

Hinweis: Sie können sich jederzeit mit nur einem Klick wieder austragen, wenn Sie keine weiteren E-Mails erhalten möchten. Alle Informationen zum Schutz Ihrer Daten erhalten Sie in unserer Transparenzerklärung.

Über uns

Die FFH MEDIENGRUPPE ist einer der reichweitenstärksten Radioanbieter in Deutschland und seit über drei Jahrzehnten deutlicher Marktführer im hessischen Radiomarkt. Mit uns erreichen Sie jeden Tag 3,9 Millionen Menschen.​

Quelle: ma 2025 Audio II

Ihr Kontakt zu uns

Zahlreiche Kunden in Hessen und der Region vertrauen uns bereits seit vielen Jahren

Mehr Audio-Wissen
Inhalt wird geladen
FFH MEDIENGRUPPE
nach oben Kontakt