Blog für Digitale Beratung

Audio-Schulungsinhalte mit KI erstellen | skillmasters

Geschrieben von Arnd Wenzel, Partner / Geschäftsführer | 23.05.2023

Die künstliche Intelligenz (KI) schreitet voran und bringt im Bereich E-Learning großartige Chancen mit sich – gerade auch beim Erstellen von Audios. Wir zeigen dir, was derzeit möglich ist und wie du mit wenig Aufwand die besten Ergebnisse erreichst.

KI-Audio: schon längst überall präsent 

Dass textbasierte Informationen in Form von menschlich klingender Sprache ausgegeben werden, ist nicht neu: Auch du bist sicher schon automatisierten Durchsagen am Bahnhof oder in einer Telefonwarteschleife begegnet. In den letzten Jahren hat sich der Bereich jedoch enorm weiterentwickelt. Alexa, Siri & Co. sind mit eigenen Stimmen versehen und Text-to-Speech-Software (TTS) wird immer besser darin, menschlich zu klingen.  

Im E-Learning-Bereich kann dich die KI bei der Erstellung von Inhalten unterstützen, aber auch bei der Produktion von Audios lässt sich viel Zeit sparen. Inhalte zum Anhören tragen zum einen zur Barrierefreiheit bei und sprechen zum anderen auditive Lerntypen an. Wenn du für deine digitalen Anwenderschulungen Audios nutzen möchtest, die mithilfe künstlicher Intelligenz erstellt werden, hast du dazu grundsätzlich zwei Möglichkeiten: 

  1. 1. Du kannst deine eigene Stimme beziehungsweise die einer Kollegin oder eines Kollegen nutzen. 
  1. 2. Du kannst die Inhalte von einer künstlich erzeugten Stimme sprechen lassen. 

Wir stellen dir beide Möglichkeiten mit ihren Vor- und Nachteilen vor. 

Möglichkeit 1: die eigene oder eine im Unternehmen bekannte Stimme nutzen  

Einige ausgewählte Text-to-Speech-Softwares können neue Stimmen erlernen. Eine Person stellt ihre Stimme zur Verfügung und absolviert mit der Software ein Stimmtraining. Mittels künstlicher Intelligenz werden die gesammelten Daten dann verwendet, um beliebige neue Wörter, Sätze und ganze Texte auf menschlich klingende Weise zu vertonen.  

Eine bereits bekannte Stimme in euren Schulungen wieder zu hören, gibt deinen Anwenderinnen und Anwendern ein Gefühl der Sicherheit und Vertrautheit. Idealerweise haben sie die entsprechende Stimme vorab „in echt“ erlebt, sodass ein konsistentes, authentisches Gesamtbild entsteht. Die Sympathie und der Wiedererkennungswert, die hier entstehen, sind große Vorteile dieser Variante. 

Es gibt aber auch Nachteile zu beachten, allen voran der Datenschutz: Wer seine Stimme verleiht, öffnet damit auch Tür und Tor dafür, ungewollt Worte in den Mund gelegt zu bekommen. Während die möglichen Konsequenzen genauer erforscht und reguliert werden, ist der Zugang zu solcher Software noch stark begrenzt.  

Außerdem ist schon vorab zu bedenken, was passiert, wenn die stimmgebende Person in der Zukunft das Unternehmen verlässt. Darf die Stimme weiterhin verwendet werden? Ein nachträglicher Umstieg auf eine andere Stimme würde hier einen großen Bruch erzeugen, der sich nachteilig auswirkt. Auch das Stimmtraining bringt einen nicht zu unterschätzenden Aufwand mit sich. 

Hier noch einmal die Vor- und Nachteile auf einen Blick: 

 Vorteile 

 Nachteile 

  • wirkt sehr authentisch 
  • gute Kundenbindung 
  • hoher Wiedererkennungswert 
  • Datenschutz und mögliche missbräuchliche Verwendung der Stimme 
  • Probleme, wenn stimmgebende Person das Unternehmen verlässt 
  • Zugang zu entsprechenden Softwares derzeit (noch) erschwert 

Möglichkeit 2: eine künstlich erzeugte Stimme verwenden  

Schon jetzt gibt es für die Arbeit mit künstlich erzeugten Stimmen eine große Anzahl von Anbietern. Darunter befinden sich kostenlose und kostenpflichtige Angebote. Sowohl kleine, noch unbekannte Unternehmen als auch die Big Player wie Amazon, Google und Microsoft sind am Markt beteiligt. 

Zu beachten ist in jedem Fall, dass nicht jede Text-to-Speech-Software für den Bereich E-Learning geeignet ist. Hier solltest du immer den jeweiligen Schwerpunkt der Software beachten. Manche sind beispielsweise dafür konzipiert, hauptsächlich Texte vorzulesen – etwa für mehr Barrierefreiheit. Andere sind mit einer Diktierfunktion gekoppelt, also hauptsächlich dafür gedacht, Sprache in Text umzuwandeln. Diese Softwares liefern mitunter Ergebnisse, die sich qualitativ für digitalisierte Anwenderschulungen nicht eignen. 

Aber klingt eine künstlich erzeugte Stimme auch menschlich?  

Die Entwicklung im Bereich Audio-KI schreitet schnell voran und scheint insgesamt in zwei Richtungen zu gehen: 

  1. 1. Die eine Richtung beschäftigt sich damit, wie künstliche Stimmen noch menschlicher und authentischer klingen können. Hier sind schon sehr realistische Ergebnisse möglich, und es ist davon auszugehen, dass der Unterschied in der Zukunft kaum noch oder gar nicht mehr zu bemerken sein wird. 
     
    2. Auf der anderen Seite gibt es den Trend, überzogen künstliche Stimmen gezielt einzusetzen, um Aufmerksamkeit zu erregen und einen Wiedererkennungswert zu erzeugen. Vielleicht bist du diesem Trend schon einmal in TikTok- oder YouTube-Shorts-Videos begegnet. Auch diese Entwicklung ist nicht zu unterschätzen – in Zukunft könnten gerade auf diese Weise künstlich klingende Stimmen auch gewollt sein. 

Zum Vergleich: Es gibt Künstlerinnen und Künstler, die bis ins kleinste Detail fotorealistisch zeichnen, mit dem Ziel, eine Zeichnung zu schaffen, die von einem Foto nicht mehr zu unterscheiden ist. Andere Kunstrichtungen verzerren oder verändern realistische Porträts oder Gegenstände aber auch absichtlich, um spannende Effekte zu schaffen. Denke zum Beispiel an Karikaturen oder an die Werke von Picasso oder Salvador Dalí. 

Die Vor- und Nachteile im Überblick: 

 Vorteile 

 Nachteile 

  • kostenlos oder kostengünstig 
  • künstlich erzeugte Stimme schafft Wiedererkennungswert 
  • zeitsparend 
  • Betonung und Satzmelodie klingen in KI-erzeugten Audios noch nicht ganz menschlich 
  • kein stimmlicher Zusammenhang mit Personen im Unternehmen 
  • herausfordernd, Software für beste Ergebnisse auszuwählen 

Welche Herangehensweise ist die beste für deine Schulungen?  

Diese Frage und damit auch ihre Antwort sind sehr individuell. Es kommt hier entscheidend darauf an, wofür du die Audio-Inhalte genau nutzen möchtest. Welches Lernziel soll erreicht werden? Wie setzt sich deine Zielgruppe zusammen? Wichtig ist vor allem auch, dass die KI-erzeugten Audio-Inhalte von den Lernenden akzeptiert werden, was wiederum eine hohe Qualität voraussetzt.  

Diese und weitere Fragen entscheiden darüber, wie deine digitalen Anwenderschulungen die Vorteile des E-Learnings am besten ausschöpfen. Wenn du dir mehr Klarheit in dieser Hinsicht wünschst, komm zu uns ins kostenlose Expertengespräch – wir beraten dich gern.