Das Service-Angebot Watson Speech to Text von IBM Cloud liefert nicht nur gute Transkriptionen von Audiodateien in kürzester Zeit, sondern lässt sich auch nach den eigenen Bedürfnissen anpassen. Da es sich allerdings um eine Speziallösung zur Transkription handelt, sind die Einsatzmöglichkeiten geringer als bei einer allgemeinen Spracherkennungssoftware.
Watson Speech to Text ist ein Cloud-Dienst, der vom bekannten amerikanischen Unternehmen IBM angeboten wird. Mithilfe von Maschine Learning greift der Service auf gelernte Grammatik, Struktur und Sprachsignale zurück, um gesprochene Sprache zu transkribieren. Im Gegensatz zu Spracherkennungssoftwares wie Dragon Professional oder Voice Pro Enterprise bietet der Dienst keine Diktierfunktion an. Sie können lediglich fertige Audiodateien zur Transkription hochladen. Features wie die direkte Anwendung in Textverarbeitungsanwendungen, beispielsweise Word, gibt es dementsprechend ebenso wenig. Dank der verschiedenen Schnittstellen sind NutzerInnen beispielsweise dazu in der Lage, Meetings und Telefonkonferenzen oder Call-Center-Gespräche zu transkribieren. Auch im Finanzbereich, Gesundheitswesen und in Versicherungsunternehmen soll der Service Vorteile erbringen.
Ein Grundvokabular in verschiedenen Sprachen ist bereits vorhanden. Dazu gehören neben Deutsch noch Italienisch, mehrere Varietäten von Englisch, Französisch, Spanisch und Niederländisch, Portugiesisch, Tschechisch, Schwedisch, Hindi, Japanisch, Koreanisch, Chinesisch und Arabisch. Für spezifisches Fachvokabular, etwa im juristischen Bereich, oder wenn die Erkennung bestimmter Akzente und Dialekte erforderlich ist, ermöglicht die Software das Training mit eigenen Wortlisten. IBM Cloud stellt keine fertigen Wortlisten für besondere Nutzungsanforderungen bereit. Im Gegenzug haben KundInnen aber volle Flexibilität beim Erstellen ihrer Wortlisten.
Der Speech-to-Text-Service entwickelt sich stetig weiter: Anfang 2023 erfolgte eine große Überarbeitung und das Einführen sogenannter „Sprachen und Modelle der nächsten Generation“, die vorherigen Modelle bis zum Sommer desselben Jahres komplett ersetzen sollen. Bei den neuen Sprachmodellen analysieren neuronale Netze die Audiodateien und nutzen die gewonnenen Informationen für die Transkription derselben Audiodatei. Sie ermöglichen aber nicht mehr das Anpassen des akustischen Models, die Schlüsselwortsuche in Transkriptionen oder das Finden von Wortalternativen. Dafür schreibt der Service mit neuen Modellen Substantive im Deutschen groß und ermöglicht bei Bedarf eine geringere Latenzzeit, um Ergebnisse schneller zu erhalten. Zudem ist es möglich, sowohl Hintergrundgeräusche als auch Nebengespräche in der Audiowiedergabe zu unterdrücken. Zu den unterdrückbaren Geräuschen gehört zum Beispiel auch die Warteschleifenmusik am Telefon. Für amerikanisches Englisch sowie für Japanisch steht ein sogenannter Profanity-Filter zur Verfügung, der vulgäre Ausdrücke innerhalb einer Transkription zensiert.
Speech to Text ermöglicht eine Spracherkennung über eine von drei Schnittstellen: eine WebSocket-, eine synchrone oder eine asynchrone HTTP-Schnittstelle. Darin lassen sich unter anderem die Sprache, das Format und die Abtastrate konfigurieren. Außerdem ist die Sprachausgabe dank verschiedener Parameter an die eigenen Bedürfnisse anpassbar.
Eine WebSocket-Schnittstelle schafft eine dauerhafte bidirektionale Verbindung zwischen einer Webanwendung und einem Webserver. Bidirektional bedeutet im Fall der Watson-Spracherkennung, dass NutzerInnen nicht explizit eine Ausgabe erfragen müssen, sondern automatisch den transkribierten Text bekommen. Sie wird auch von IBM als bestes Verfahren für ihren Spracherkennungsservice gesehen.
Um ein Audiofile zu transkribieren, müssen Sie die Anforderungen in der Konsole mithilfe von vordefinierten Befehlen erstellen. Bei WebSocket kommt typischerweise Javascript zum Einsatz, aber auch die Eingabe mit anderen Programmiersprachen wie Python ist möglich. Für die HTTP-Schnittstellen nutzt IBM gern die Open-Source-Software Curl auf Basis der Programmiersprache „C“, um Anforderungen zu stellen.
IBM stellt eine sehr ausführliche Dokumentation zur Verfügung, anhand derer Interessierte den Umgang mit Speech to Text lernen können. Wenn man sich damit ausgiebig auseinandersetzt, ist die Anwendung durchaus machbar. Intuitiv sind die Einrichtung und die Bedienung aber keineswegs, außer NutzerInnen haben etwas Programmiererfahrung.
Während es mithilfe der Dokumentation ebenfalls nicht so schwer ist, ein angepasstes Sprachmodell hinzuzufügen, ist der gesamte Prozess von der Erstellung bis zur Einsatzbereitschaft zeitaufwendig und unpraktisch. Sofern die NutzerInnen nicht bereits eine Ansammlung von Text-Dateien zur Verfügung haben, müssen sie diese selbst erstellen. Weiterhin muss der Service mithilfe der neuen Daten trainiert werden. In dem Sinne handelt es sich beim Transkriptionsdienst um ein sprecherabhängiges Maschine-Learning-Programm.
Eine pauschale Worterkennungsrate lässt sich nicht genau nennen. Bei jeder Antwort wird aber der „Confidence“-Wert angegeben, der die Genauigkeit des Resultats beschreibt. In Speech to Text stehen pro Sprache jeweils zwei Sprachmodelle der nächsten Generation zur Verfügung, Telefoniemodelle für Dateien mit telefonischen Aufzeichnungen sowie Multimediamodelle für Dateien mit einer Abtastrate von mindestens 16 Kilohertz. Für die bestmögliche Erkennungsrate entspricht das eingesetzte Modell den Eigenschaften der Audiodateien. Angepasste Sprachmodelle, etwa um Spezialbegriffe oder Grammatiken ergänzt, verbessern die Erkennungsrate und die Ausgabe, sodass NutzerInnen im Anschluss wenig nachkorrigieren müssen.
Da es sich bei Watson Speech to Text um einen von IBM angebotenen Cloud-Service handelt, sind lediglich eine Internetverbindung und ein IBM-Konto erforderlich. Besondere Systemanforderungen an den PC hat der Dienst nicht. Um den Service nutzen zu können, bietet IBM drei Preistarife mit unterschiedlichen Leistungsspektren an, die sich nach transkribierten Minuten richten.
Der Lite-Plan ist kostenlos und umfasst eine Transkription von 500 Minuten Audio pro Monat. Damit können NutzerInnen jedes Sprachmodell nutzen, aber keine Anpassungen vornehmen.
Der Plus-Plan bietet alle Modelle sowie Anpassungsmöglichkeiten und ermöglicht das Absenden von bis zu hundert Transkriptionsanfragen zur selben Zeit. Er kostet 0,02 US-Dollar pro Minute, bei mehr als 1.000.000 Minuten pro Monat zahlen NutzerInnen 0,01 Dollar.
Der Premium-Plan ergänzt die Features um erweiterte Sicherheitsfunktionen und schafft 500 gleichzeitige Transkriptionen. Er ist für Großunternehmen mit erhöhtem Schutzbedarf gedacht, die den Preis erst erfragen müssen.
Großunternehmen können auch nach dem Preis der Deploy-Anywhere-Option fragen, wenn sie Text to Speech hinter einer eigenen Firewall implementieren oder den Dienst in Clouds anderer Anbieter wie Google oder Amazon nutzen möchten
Bei jedem Speech-to-Text-Plan stehen mindestens grundlegende Sicherheitsfunktionen zur Verfügung. Mithilfe des Cloud-Identity-and-Access-Management-Services (IAM) können NutzerInnen beispielsweise eine Authentifizierung konfigurieren, sodass nur diejenigen mit Berechtigungsnachweis Zugriff auf die Daten haben. Alle Daten sind bei der Übertragung mittels Transport Layer Security (TLS) 1.2 geschützt. Zudem kommen der Advanced Encryption Standard (AES)-256 und der Secure Hash Algorithm (SHA)-256 zum Einsatz.
Beim Umgang mit den Daten seiner UserInnen richtet sich IBM nach der Datenschutzgrundverordnung der Europäischen Union (DSGVO). Durch das Ablehnen der Standardprotokollierung erhebt das Unternehmen keine Anforderungs- oder Antwortdaten. Während Plus-Pläne Daten in einem Verschlüsselungsschlüssel logisch voneinander trennen, bieten Premium-Konten eindeutige Verschlüsselungsschlüssel zur direkten Trennung der Daten.
Wenn es um Support geht, macht IBM keine halben Sachen. Das Unternehmen hat eine richtige Support-Struktur, bestehend aus umfassenden Dokumentationen, FAQ, Blog-Artikeln, etwa über das Trainieren eines Sprachmoduls, einer Developer-Community und mehreren Methoden zur Kontaktaufnahme. Dank der Live-Demo erhalten Interessierte einen ersten Einblick in die Software. KundInnen können nicht nur Online-Anfragen schicken, sondern den Support auch per Telefon und Chat erreichen. In der Regel erfolgt die Hilfe-Anfrage über den Support-Button im Account, aber selbst ohne Account stehen sowohl eine Telefonnummer als auch eine Chat-Funktion steht zur Verfügung.
Bei Watson Speech to Text von IBM handelt es sich um eine Maschine-Learning-Software auf Basis von neuronalen Netzen, die dem Transkribieren von Audiodateien dient. Eine Diktierfunktion oder Schnittstellen zu Textverarbeitungsprogrammen stehen nicht zur Verfügung.
Von Beginn an stehen Modelle für verschiedene Sprachen mit einem Grundwortschatz zur Auswahl. Es ist nicht erforderlich, teure Lizenzen für jede Sprache zu erwerben. Stattdessen verrechnet der Dienst die Transkription in Audio-Minuten. Der Preis entspricht also der tatsächlichen Nutzung.
Mithilfe von erweiterten Sprachmodellen lässt sich der Transkriptionsdient genau an die eigenen Bedürfnisse anpassen. NutzerInnen können etwa Fachvokabular und typische Formulierungen in ihrem Berufszweig ergänzen oder neue Grammatikregeln hinzufügen. Die Dateien zur Anpassung des Grundmodells stellt die Cloud aber nicht zur Verfügung, sondern nur die Schnittstellen. Auch das selbstständige Lernen gelingt der Software nicht ohne Hilfe der NutzerInnen. Diese müssen die aufbereiteten Dateien hochladen und Trainingseinheiten durchführen, damit der Lernprozess erfolgt. IBM stellt praktischerweise ausführliche Anleitungen zur Verfügung, um über die genaue Vorgehensweise zu informieren.
Insgesamt ist Speech to Text ist ein sehr flexibles und anpassbares Programm, das in zahlreichen Unternehmensbereichen einsetzbar ist. Bis das Programm aber genau den Bedürfnissen entspricht, ist eine gewisse Trainings- und Anpassungszeit erforderlich. Die Bedienung erfordert auch eine gewisse Lernphase, vor allem wenn Ihnen die Kommandozeile noch nicht bekannt ist. Es eignet sich nicht zur Vereinfachung von Arbeitsabläufen, hat aber in Bereichen wie der Transkription von Call-Center-Anrufen oder Konferenzen durchaus seine Berechtigung.