Google Cloud liefert mit der Speech-to-Text-Software ein leistungsstarkes und vielseitiges Tool zur Transkription von Audiodateien. Dank der grafischen Konsole lassen sich Transkriptionsanfragen selbst ohne Programmierkenntnisse einfach stellen. Allerdings ist die Preisgestaltung konfus und die Optimierung der Sprachmodelle mitunter zeitaufwendig.
Die Google Cloud kann weitaus mehr als nur E-Mails und private Inhalte wie Bilder oder Videos speichern. Unter anderem stellt sie einen umfassenden Workspace für Unternehmen zur Verfügung. Darüber hinaus gehört sie zu den Marktführern im Bereich künstlicher Intelligenz und maschinellen Lernens. Es ist also nicht verwunderlich, dass Google auch eine Spracherkennung für die Transkription von Audioinhalten in Texte anbietet. Zu diesem Zweck lassen sich mehr als 125 Sprachen und Sprachvarianten einsetzen.
Die Spracherkennung kann synchron, asynchron oder in Echtzeit erfolgen. Synchron bedeutet in diesem Fall, dass NutzerInnen die Audiodaten an die Speech-to-Text-Schnittstelle senden und in kürzester Zeit eine Antwort enthalten. Allerdings dürfen die Dateien nicht länger als eine Minute sein. Bei längeren Tonaufnahmen mit einer Dauer von bis zu 480 Minuten kommt die asynchrone Erkennung zum Einsatz. Aufgrund der Länge erfordert die Transkription mehr Zeit. Bei der Echtzeiterkennung ist sogar die direkte Transkription von Ton möglich, der während eines Livestreams in ein Mikrofon gesprochen wird. Auch Videos lassen sich transkribieren und mit Untertiteln versehen.
Weiterhin kann die Spracherkennungsfunktion des Transkriptionsdienstes zum Einsatz kommen, um Sprachsuchen oder Befehle zu verstehen und durchzuführen. Google zufolge lassen sich damit zahlreiche Internet-of-Things-Anwendungen per Sprache steuern. Zu diesem Zweck bietet Google mit command_and_search sogar ein passendes Sprachmodell an. Neben diesem Sprachmodell stellt Google weitere vortrainierte Modelle zur Verfügung, die für bestimmte Bereiche optimiert sind, darunter auch eines für Telefonate, eines für Videos sowie zwei für den medizinischen Bereich.
Dank des Multi-Channel-Features gelingt sogar der Umgang mit mehreren SprecherInnen, etwa bei Videokonferenzen. Die Anwendung erfasst jede Person als eigenen Kanal und gibt deren Aussagen geordnet wieder. Bei Bedarf lässt sich vulgäre Sprache mithilfe des Obszönitätenfilters aus der Transkription filtern. Speech-to-Text ist sogar dazu in der Lage, Satzzeichen automatisch an die richtigen Positionen in der Textausgabe zu setzen.
In puncto Modellanpassung liefert Google ebenfalls einige Möglichkeiten. Mit der Angabe bestimmter Klassen gelingt es der Software, typische Konzepte wie eine Adresse oder Währungen als solche zu erkennen und wiederzugeben. Fachbegriffe und seltene Wörter lassen sich hinzufügen und als relevant markieren, sodass Speech to Text diese Wörter häufiger erkennt als andere, ähnlich klingende Begriffe. Zudem können NutzerInnen neue Grammatikregeln etablieren.
Wie bei Watson Speech to Text können Transkriptionsanfragen in der Kommandozeile mithilfe von Curl, Javascript oder Programmiersprachen wie Python erstellt werden. Die Konfiguration per Programmiersprache erlaubt es zwar, die Bedingungen für die Transkription genau festzulegen, erfordert aber auch ein gewisses Verständnis des Programmierens. Mittlerweile bietet Google mit der Cloud-Speech-to-Text-Konsole jedoch eine einfache Alternative für alle ohne Programmierkenntnisse an. Sie ermöglicht das Transkribieren komplett ohne Code. NutzerInnen laden eine Audiodatei hoch und geben den Codierungstyp sowie die Abtastrate an. Im Anschluss wählen sie den gewünschten Sprachcode und das Transkriptionsmodell in einem Drop-down-Menü aus.
Es ist sogar möglich, eine Modellanpassung in der Konsole vorzunehmen. Die Anpassung kann für jedes Transkript individuell und einmalig definiert werden. Relevante Wörter und Wortgruppen notieren KundInnen in die vorgesehene Phrasen-Zeile. In der gegenüberliegenden Zeile geben sie ein „Boost-Value“ zur Gewichtung an, damit die Phrasen häufiger erscheinen als andere ähnliche Wörter. Nach erfolgreicher Transkription lässt sich das Ergebnis über den Workspace abrufen und überprüfen. Wenn das Transkript nicht zufriedenstellend ist, lässt sich die Ausgabe über das Feature „Konfiguration wiederverwenden“ unter leicht veränderten Bedingungen ein weiteres Mal erzeugen.
Im Gegensatz zu lokalen, umfassenden Spracherkennungs-Lösungen lässt sich bei Google Speech to Text keine allgemeine Sprachgenauigkeit ermitteln. Typisch bei Sprachausgaben in Konsolen ist aber der „confidence“-Wert. Dieser gibt in einer Spanne von 0,0 bis 1,0 die Wahrscheinlichkeit an, dass die Wörter in der Ausgabe richtig sind. Wurden seltene Wörter genutzt, kann der Wert allerdings trotz korrekter Transkription niedriger ausfallen als ungenauere Alternativen, da solche Wörter einen niedrigeren Wahrscheinlichkeitswert erhalten. Selbst wenn die Transkription zu Beginn fehlerbehaftet ist, können NutzerInnen sie dank der verschiedenen Mittel zur Modellanpassung sowie der Möglichkeit, eine Konfiguration wiederzuverwenden, stetig verbessern und somit die erforderliche Nachkorrektur reduzieren.
Google Speech to Text ist dazu in der Lage, Nebengeräusche vom eigentlichen Inhalt zu unterscheiden und zu verarbeiten. Ton mit zusätzlicher Geräuschunterdrückung aufzunehmen, ist nicht nur unnötig, sondern es wird in der Dokumentation sogar davon abgeraten, da sie das Ergebnis verzerren kann.
Der Preis richtet sich bei Google nach der Länge der Audiodateien, die die Software innerhalb eines Monats verarbeitet. Die Abrechnung verläuft in Sekundenschritten. Kurioserweise findet sich auf der Seite aber lediglich ein Minutenpreis. NutzerInnen zahlen 0,024 Dollar pro Minute für die Nutzung der Standard-Sprachmodelle und 0,078 Dollar pro Minute für medizinische Modelle. Die ersten 60 Minuten im Monat sind bei allen Modellen kostenlos.
Die Preisgestaltung hat zwei Besonderheiten: Der Preis ändert sich nämlich zum einen dann, wenn es mehrere SprecherInnen in einer Datei gibt, und zum anderen, wenn NutzerInnen dem Datenlogging zustimmen. Im ersten Fall rechnet Google jede Stimme separat in einem eigenen Kanal. Anstelle der Gesamtlänge der Aufnahme wird Audiolänge mit der SprecherInnenanzahl multipliziert. Wenn eine Aufnahme 30 Sekunden dauert und vier Personen sprechen, kostet die Transkription so viel wie eine 120-Sekunden-Aufnahme mit einem Sprechkanal.
Dagegen bedeutet Datenlogging eine Kostenreduktion: NutzerInnen zahlen 0,016 Dollar pro Sekunde für Standardmodelle. Als Gegenleistung akzeptieren sie einen Einschnitt in ihre Privatsphäre. Sie erlauben Google nämlich, die hochgeladenen Audio-Dateien aufzuzeichnen und zum Trainieren ihrer Sprachmodelle zu nutzen. Für medizinische Modelle gibt es eine solche Vereinbarung nicht.
Für alle, die sich noch unsicher sind, ob Speech-to-Text die richtige Entscheidung ist, bietet Google eine Demo auf der Produktseite an. Interessierte laden lediglich eine Audiodatei hoch oder sprechen direkt in ein Mikrofon, wählen die Transkriptionssprache sowie die Anzahl der SprecherInnen aus und starten die Spracherkennung. Wer dann von der Transkription überzeugt ist und noch kein Google-Cloud-Konto hat, erhält als NeukundIn ein Startguthaben von 300 Dollar.
Sicherheit und Datenschutz haben einen hohen Stellenwert bei Google. Sowohl die physischen Rechenzentren als auch die Netzwerke und Datenstrukturen sind mehrschichtig gesichert. Mit Tools wie Qualitätssicherungsprozessen, Sicherheitsprüfungen und Penetrationstests macht das Unternehmen Sicherheitslücken ausfindig und behebt diese.
Auch wenn es um den Schutz von vertraulichen Geschäftsdaten geht, bietet Google praktische Mittel an, um etwa den Zugriff auf Personendaten zu steuern oder alle Daten stark zu verschlüsseln. Ein eigenes Datenschutzteam sorgt dafür, dass die Gesetze eingehalten werden, und entwickelt neue Wege, Datenschutz im Rahmen der neusten Technologien einzuhalten.
Der Support von Google ist zwar umfassend, aber größtenteils kostenpflichtig. Mit dem kostenlosen Basis-Support können KundInnen alle Dokumentationen, Tutorials sowie Kurzanleitungen einsehen, den Community Support in Anspruch nehmen und Hilfe erhalten, wenn es um Abrechnungen und Zahlungsmodalitäten geht.
Möchten Sie aber zum Beispiel persönlichen technischen Support, weil ein Fehler beim Transkribieren aufgetreten ist, müssen Sie mindestens den Standard-Support kaufen. Dieser ist für kleine bis mittlere Unternehmen gedacht und hat einen Festpreis von 29 Dollar pro Monat. Hinzu kommen drei Prozent der monatlichen Gesamtkosten für die eingesetzten Google-Dienste. KundInnen erhalten dafür unbegrenzten Support mit Antwortzeiten zwischen vier und acht Stunden je nach der vom Support zugeordneten Problemstufe – täglich von Montag bis Freitag für acht Stunden.
Eine Stufe höher befindet sich der erweiterte Support für 500 Euro pro Monat. Er bietet kürzere Antwortzeiten von einer Stunde bis maximal acht Stunden, Rund-um-die-Uhr-Support sowie zusätzliche Features wie eine Cloud-Support-Schnittstelle und Unterstützung bei Problemen von Drittanbieterlösungen.
Für Großunternehmen mit hohen Lasten gibt es einen Premium-Support für 12.500 Dollar pro Monat plus vier Prozent der Monatsgebühren anstelle der bisherigen drei Prozent. Dafür bietet das Modell Features wie den Google Cloud Skills Boost oder Technical Account Management.
Bei Google Cloud Speech to Text handelt es sich um eine leistungsstarke Spracherkennungssoftware mit Fokus auf dem Transkribieren von gesprochenen Inhalten. NutzerInnen können sich unter verschiedenen Oberflächen und Entwicklungsumgebungen die bevorzugte Methode aussuchen. Wer sich mit dem Programmieren auskennt, bevorzugt mitunter ein spezifisches Konfigurieren mit beispielsweise Javascript oder Python, andere nutzen hingegen die bedienerfreundliche Cloud Console, die kein Programmierwissen voraussetzt. Mit zahlreichen praktischen Funktionen wie dem Transkribieren von Streaming-Inhalten und der Konfiguration von Untertiteln oder der Einrichtung einer Sprachsteuerung hebt sich der Cloud-Dienst von anderen Transkriptionssoftwares ab.
Der Preis richtet sich nach der tatsächlichen Nutzung, wobei die Mehrkosten bei Dateien mit mehreren SprecherInnen etwas undurchsichtig sind. Bei der Aufzeichnung einer Konferenz mit großer Anzahl von RednerInnen können unerwartet hohe Kosten auf die KundInnen zukommen.
Die Ergebnisse der Spracherkennung sind vor allem zu Beginn nicht fehlerfrei, aber dank umfangreicher Anpassungsmöglichkeiten wie der Gewichtung seltener Begriffe oder dem Einfügen von Grammatikregeln und Klassen lässt sich die Ausgabe stetig verbessern. Das nimmt allerdings eine gewisse Zeit in Anspruch. Für diejenigen, die gelegentlich in kürzester Zeit eine Audiodatei transkribieren lassen, ist der Cloud-Dienst daher weniger geeignet. Langfristig sind mit Googles Spracherkennungslösung aber hervorragende Ergebnisse möglich. Ob die Transkription alltägliche Arbeitsabläufe vereinfacht, ist fraglich. Für Spezialeinsätze wie die Transkription von Call-Center-Anrufen oder Meetings und Diagnosen von PatientInnen ist der Dienst tatsächlich hilfreich.
Logo: © Google