Die beste Spracherkennungssoftware im Vergleich

Q: Was ist eine Spracherkennungssoftware?

Der Begriff „Spracherkennungssoftware' bezeichnet Computerprogramme, die gesprochene Sprache identifizieren und in schriftlichen Text umwandeln beziehungsweise darauf reagieren. Oftmals spricht man auch von Diktiersoftware. Dabei analysiert der Computer die eingegebenen Sprachinformationen hinsichtlich der gesprochenen Wörter, ihrer Bedeutung und der individuellen Charakteristika des Sprechers oder der Sprecherin. Nicht verwechseln Der Begriff Spracherkennung ist von der Stimmerkennung zu unterscheiden. Die Stimmerkennung bezeichnet ein biometrisches Verfahren, das Personen anhand ihrer Stimme identifiziert. Was kann Spracherkennungssoftware? Mittlerweile ermöglichen es gute Spracherkennungsprogramme ihren NutzerInnen, per Sprachbefehl den PC zu steuern , E-Mails sowie Kalendereinträge zu verwalten und das Internet zu durchsuchen .. » Mehr erfahren

Texte einfach diktieren statt zu schreiben

Das Wichtigste in Kürze

Eine Spracherkennungssoftware setzt gesprochene Worte in geschriebenen Text um und ermöglicht es AnwenderInnen, den PC per Sprachbefehl zu steuern.
Aktuelle Spracherkennungsprogramme erreichen bereits von Beginn an eine Erkennungsrate von bis zu 99 Prozent.
Mit einer solchen Software erleichtern sich NutzerInnen die Arbeit am PC, arbeiten bis zu dreimal schneller als beim Tippen und schonen Hände sowie Nacken.
Für JuristInnen und Ärztinnen gibt es häufig spezielle Ausgaben der Spracherkennungssoftware.

Was ist eine Spracherkennungssoftware?

Der Begriff „Spracherkennungssoftware" bezeichnet Computerprogramme, die gesprochene Sprache identifizieren und in schriftlichen Text umwandeln beziehungsweise darauf reagieren. Oftmals spricht man auch von Diktiersoftware. Dabei analysiert der Computer die eingegebenen Sprachinformationen hinsichtlich der gesprochenen Wörter, ihrer Bedeutung und der individuellen Charakteristika des Sprechers oder der Sprecherin.

Nicht verwechseln

Der Begriff Spracherkennung ist von der Stimmerkennung zu unterscheiden. Die Stimmerkennung bezeichnet ein biometrisches Verfahren, das Personen anhand ihrer Stimme identifiziert.

Was kann Spracherkennungssoftware?

Mittlerweile ermöglichen es gute Spracherkennungsprogramme ihren NutzerInnen, per Sprachbefehl den PC zu steuern, E-Mails sowie Kalendereinträge zu verwalten und das Internet zu durchsuchen. Zudem sind solche Spracherkennungsprogramme in der Lage, gesprochene Sätze in Schrift umzusetzen. Voraussetzung hierfür ist üblicherweise eine kurze Trainingseinheit, in deren Rahmen der Nutzer oder die Nutzerin einen Text laut sprechen muss. Eine gute Spracherkennungssoftware ist lernfähig und verbessert ihre Erkennungsrate im Laufe der Zeit. Aktuell gibt es Diktiersoftware auf dem Markt, deren Erkennungsgenauigkeit bereits von Beginn an bis zu 99 Prozent erreicht. Bei einfachen Texten und Diktaten ist übrigens mühelos möglich, eine Spracherkennung von 100 Prozent zu erreichen. Neue Programme fügen eigenständig Punkt und Komma in die Texte ein. Diese Funktion muss jedoch erst weiterentwickelt werden; somit ist es aktuell noch immer sinnvoll, die Interpunktionszeichen mitzudiktieren. Das bedeutet, dass NutzerInnen im Fließtext Satzzeichen wie „Komma“ oder „Punkt“ dazusagen. Zunächst mag ihnen dies vielleicht etwas seltsam erscheinen. Der kleine Mehraufwand lohnt sich allerdings, da sich Satzzeichen so an den richtigen Stellen befinden.

Welche Vorteile bietet eine Spracherkennungssoftware?

Spracherkennungssoftware macht es AnwenderInnen im Idealfall möglich, die Arbeit am PC ausschließlich per Sprachbefehl zu erledigen, sodass Maus und Tastatur fast überflüssig werden. Sie erhöht den Bedienkomfort des Computers, vereinfacht die Schreibarbeit und steigert die Produktivität. Mithilfe der Diktierfunktion erstellen NutzerInnen Texte bis zu dreimal schneller als beim Tippen.

Ein wenig Geschichte am Rande

Seit den 1960er-Jahren beschäftigen sich ForscherInnen mit der Entwicklung von Spracherkennungssystemen – aufgrund der begrenzten technischen Möglichkeiten jedoch lange Zeit wenig erfolgreich, bis im Jahr 1997 die Version 1.0 der heute erfolgreichen Software-Reihe Dragon NaturallySpeaking erschien.

Darüber hinaus bieten die meisten Programme die Möglichkeit, Texte unterwegs mit einem Diktiergerät aufzunehmen und die Aufnahmen zu Hause von der Software in geschriebenen Text umsetzen zu lassen. Auch für die Gesundheit ist eine Spracherkennungssoftware vorteilhaft: Beim Tippen ist man an eine unnatürliche Haltung gebunden, zudem werden die Sehnen der Hände und Unterarme belastet. Beim Diktieren hat man hingegen die Möglichkeit, sich frei zu bewegen und auf diese Weise Hände und Arme sowie Rücken und Nacken zu entspannen. So werden etwa die Risiken einer Sehnenscheidenentzündung oder von Rückenschäden minimiert.

Folgende Übersicht fasst die wichtigsten Vorteile einer Spracherkennungssoftware zusammen:

Texte bis zu dreimal schneller erstellen als beim Tippen
Effizienter und zeitsparender arbeiten
Hände und Nacken schonen

Wie funktioniert die Spracherkennung?

Die Spracherkennung ist ein Teilgebiet der angewandten Informatik, Ingenieurswissenschaften und Computerlinguistik. Ziel ist es, die gesprochene Sprache der automatischen Datenerfassung zugänglich zu machen. Dabei wird zwischen sprecherunabhängiger und sprecherabhängiger Spracherkennung unterschieden.

Sprecherunabhängige Spracherkennung

Diese Form ist auf eine breite AnwenderInnenschicht ausgelegt. BenutzerInnen können sofort und ohne Trainingsphase mit dem Diktieren beginnen. Allerdings ist der Wortschatz auf einige tausend Wörter beschränkt. Diese Systeme werden bevorzugt im technischen Bereich eingesetzt, etwa bei einem Dialogsystem wie einer automatischen Fahrplanauskunft.

Sprecherabhängige Spracherkennung

Die sprecherabhängigen Systeme müssen hingegen vor der Verwendung auf Besonderheiten der Aussprache trainiert werden. Neuere Systeme ermöglichen das Anlernen auch während der Benutzung. Im Gegensatz zur sprecherunabhängigen Spracherkennung können hier individuelle Interaktionsmöglichkeiten mit dem System programmiert werden, etwa eigene Begriffe oder Abkürzungen. Der Einsatz mit häufig wechselnden NutzerInnen, zum Beispiel in einem Callcenter, ist mit einem solchen System daher nicht sinnvoll. In diesen Systemen ist der verfügbare Wortschatz im Vergleich zu sprecherunabhängigen Systemen viel größer: Etwa 300.000 Wörter sind möglich.

Front-End- oder Back-End-System

Ein weiteres technisches Unterscheidungskriterium ist die Art der technischen Anbindung. Bei Front-End-Systemen wird die Sprache unmittelbar in Text umgesetzt. Das Ergebnis liegt in diesen Fällen ohne nennenswerte Zeitverzögerung vor. Die technische Umsetzung kann vor Ort am Computer oder Cloud-basiert erfolgen. Die bei diesem System gegebene unmittelbare Interaktion zwischen den NutzerInnen und dem System garantiert höchste Erkennungsqualität.

Bei Back-End-Systemen erfolgt die Umsetzung hingegen zeitversetzt: Die Verarbeitung erfolgt dabei auf einem oftmals weit entfernten Server; der Text steht dadurch erst mit Verzögerung zur Verfügung. Diese Lösungen sind aktuell im medizinischen Anwendungsbereich noch sehr verbreitet. Da keine unmittelbare Interaktion erfolgt, sind zufriedenstellende Ergebnisse nur dann zu erwarten, wenn der Benutzer oder die Benutzerin bereits Erfahrung mit Sprachsteuerung hat.

Aktuelle Umsetzungen

Moderne Spracherkennungssysteme erreichen bei Diktaten an PCs eine Erkennungsquote um 99 Prozent und erfüllen so in vielen Bereichen die Anforderungen für die praktische Einbindung. Das ist bei wissenschaftlichen Texten, Geschäftskorrespondenzen und juristischen Schriftsätzen der Fall. Viele Systeme stoßen aber bereits an ihre Grenzen, wenn der Autor oder die Autorin fortlaufend neue, vom System nicht erkennbare Wörter benötigt. Zwar ist das manuelle Hinzufügen neuer Wörter möglich, werden diese aber nur selten oder gar einmalig genutzt, ist diese Verfahrensweise wenig effizient. AnwenderInnen wie DichterInnen profitieren von solchen Systemen daher weniger als ÄrztInnen oder RechtsanwältInnen.

Software, die selbst lernt

Es gibt auch Spracherkennungssysteme, die Deep-Learning-Methoden auf Basis von neuronalen Netzwerken nutzen. Neuronale Netzwerke basieren wiederum auf der Funktionsweise des menschlichen Gehirns. Deep-Learning-Systeme sind selbstlernend und werden mit großen Datenmengen trainiert. Daraus extrahieren sie Merkmale, gruppieren Objekte und erkennen neue Muster.

Bei Spracherkennungssoftware kommt hierfür die Zielsprache zum Einsatz. Je mehr Wörter und Texte eine solche Software erkennen muss, desto mehr lernt sie über die verwendete Sprache. Irgendwann kann die Software ihre Datenbank selbst erweitern. Nuance zufolge nimmt die Dragon-Software zum Beispiel untypische Begriffe, die NutzerInnen verwenden, selbstständig ins Vokabular auf. Das manuelle Hinzufügen selten genutzter Wörter entfällt somit.

Qualität der Aufnahme

Nicht zu unterschätzen ist die Bedeutung der Tonaufnahmequalität für eine erfolgreiche Texterkennung. Bei Mikrofonen, die direkt vor dem Mund getragen werden, etwa bei Headsets oder Telefonen, ist die Erkennungsrate deutlich höher als bei Mikrofonen, die im Raum angebracht sind. Außerdem spielen Umgebungsgeräusche eine Rolle, die zunächst herausgefiltert werden müssen. Das wird beispielsweise relevant, wenn der Sprecher oder die Sprecherin das Diktat unterwegs im Berufsverkehr aufzeichnet. Auch wenn es um die Herausfilterung von Hintergrundgeräuschen geht, können Deep-Learning-Algorithmen zum Einsatz kommen. Bei der Spracherkennungssoftware von Dragon ist das zum Beispiel der Fall.

Zerlegung des Textes in N-Gramme

Spracherkennungssoftware, die keine Deep-Learning-Algorithmen nutzt, arbeitet in der Regel mit Modellen, die lediglich die Wahrscheinlichkeit bestimmter Wörter und Wortfolgen ermitteln. Ein grundlegendes Sprachmodell, das zum Einsatz kommt, ist das N-Gramm-Modell, bei dem Texte in einzelne Fragmente zerlegt werden. Mithilfe dieses Modells spaltet eine Spracherkennungssoftware einen gesprochenen Text in einzelne Buchstaben, Phoneme oder Wörter. Aus den einzelnen Wörtern, ganzen Sätzen oder auch kompletten Texten werden N-Gramme zur Analyse generiert. Normalerweise arbeiten Programme mit Bi- oder Tri-Grammen, also Zerlegungen in Fragmente mit zwei oder drei Buchstaben. Möglich ist auch die Kombination von N-Grammen und Syntaxmodellen zu faktoriellen Sprachmodellen, die sowohl die Worte als auch die grammatikalische Struktur beachten.

Facettenreiche Netzwerke

Bei Spracherkennungssoftwares, die mit Deep-Learning-Algorithmen arbeiten, kommen verschiedene Arten von Algorithmen zum Einsatz, teils sogar eine Kombination aus mehreren. Gängig sind rekurrente neurale Netze. Diese haben eine Art Speicher und können daher Daten aus vergangenen Eingaben für zukünftige nutzen. Das bedeutet, dass die Spracherkennungssoftware zum Beispiel dazu in der Lage ist, frühere Texte nach hilfreichen Informationen für aktuelle Transkriptionen zu durchsuchen, darunter zuvor verwendete Wörter, Sätze und Muster. Ist ein sogenanntes „Attention-Modell“ integriert, kann die Software bestimmte Teile der Eingabe priorisieren und somit nur die für die Spracherkennung wichtigen Informationen herausfiltern.

Anwendungsbeispiele

Spracherkennungssoftware ist bereits heute serienmäßig für viele Endgeräte wie Smartphones, Tablets, Computer und Smart Speaker verfügbar. Beispiele sind die Technologien, die unter den Markennamen Siri (Apple), Google Now (Google), Cortana (Microsoft), Amazon Echo sowie Alexa (Amazon) und S Voice (Samsung) angeboten werden.

Für wen lohnt sich eine Spracherkennungssoftware?

Die meisten Anbieter von Spracherkennungssoftware haben unterschiedlich umfangreiche Versionen im Sortiment. In der Regel gibt es eine vergleichsweise günstige Variante, die sich auf Basis-Features beschränkt und sich in erster Linie an unerfahrene PrivatanwenderInnen richtet. Diese Nutzungsgruppe kann mit einer Spracherkennungssoftware zum einen ihren PC-Alltag vereinfachen und zum anderen Zeit sparen. Zudem müssen NutzerInnen nicht mehr über lange Zeiträume in einer unnatürlichen Haltung am Arbeitsplatz sitzen und tippen, sondern bewältigen viele Aufgaben komfortabler. Dadurch entlasten sie Hände, Nacken sowie Rücken und beugen Schmerzen vor. Einige Berufsgruppen profitieren besonders vom Einsatz einer Spracherkennungssoftware.

Dazu gehören ÄrztInnen, etwa ChirurgInnen oder ZahnärztInnen, die während der Arbeit keine Hand frei haben. Trotzdem können mithilfe einer Spracherkennungssoftware selbst während der Behandlung Notizen bezüglich Anamnese und Therapie erfasst werden. Für diese AnwenderInnen stehen Spezialmodule mit einer besonderen Erkennungsstufe für medizinische Fachtermini bereit. So wird das in diesen Bereichen hohe Dokumentationsaufkommen deutlich erleichtert.

Bei einigen Softwares gibt es außerdem Spezialmodule für JuristInnen. Hier sind Begriffe aus Gesetzestexten enthalten, die von den NutzerInnen besonders häufig benötigt werden.

Darüber hinaus ermöglicht ein Spracherkennungsprogramm Menschen, die aufgrund einer körperlichen Behinderung Tastatur und Maus nicht bedienen können, das Arbeiten mit einem Computer. Dazu gehören AnwenderInnen, die unter einer Lähmung leiden, genauso wie Betroffene einer Amputation. Für diese Anwendungsgruppen stellt eine Spracherkennungssoftware eine große Erleichterung dar. Neben dem Diktieren von Texten ist auch die Steuerung des Computers möglich. E-Mails verfassen und absenden, Programme oder Websites öffnen – per Sprachsteuerung alles kein Problem.

Wer profitiert besonders von einer Spracherkennungssoftware?

Berufsgruppen wie MedizinerInnen, die viel diktieren, zeitgleich ihre Hände benötigen und diverses Fachvokabular benutzen
Berufsgruppen, die häufig Standardtexte benutzen (beispielsweise JuristInnen)
körperlich behinderte Menschen, die Tastatur und Maus nur eingeschränkt oder gar nicht bedienen können

Darauf kommt es beim Kauf an

Zwar ist das Angebot an leistungsfähiger Spracherkennungssoftware aktuell noch vergleichsweise beschränkt, dennoch gibt es zwischen den vorhandenen Programmen teilweise große Unterschiede in der Spracherkennung, auf die KäuferInnen bei ihrer Entscheidung achten sollten. Beispielsweise kann sich ein bestimmtes Spracherkennungsprogramm besonders gut für private AnwenderInnen ohne umfangreiche Vorkenntnisse eignen, während sich ein anderes Programm gezielt an Unternehmen und die im beruflichen Umfeld relevanten Anforderungen richtet.

Funktionen und Lieferumfang

Ein entscheidendes Kriterium bei der Wahl einer Spracherkennungssoftware ist der Funktionsumfang. Zu den Basis-Funktionen, die in aller Regel bereits in günstigen Versionen für PrivatanwenderInnen enthalten sind, gehören eine Diktierfunktion in deutscher Sprache sowie das Bearbeiten und Formatieren von Texten per Sprachbefehl. Viele der Programme zur Spracherkennung ermöglichen es AnwenderInnen, per Sprachbefehl das Internet zu durchsuchen, Formulare auszufüllen, Kalender zu verwalten sowie E-Mails zu diktieren, zu bearbeiten und zu versenden.

Sogenannte Transkriptionstools, die Audiodateien, beispielsweise Aufnahmen mit einem Diktiergerät, in Schrift umwandeln, gehören häufig nicht zu den Basis-Funktionen. Sie sind daher erst ab einer umfangreicheren Edition enthalten, ebenso wie eine Diktierfunktion in englischer Sprache.

Einige Softwares haben ein Headset oder ein Mikrofon im Lieferumfang. Beachten Sie, dass diese in der Regel ausschließlich in der Versand-Version und nicht in der Download-Variante enthalten sind. Andere Hersteller bieten Headset und Mikrofon hingegen separat an. Stellen Sie fest, dass es Probleme bei der Texterkennung gibt, kann es sich lohnen, in ein hochwertigeres Mikrofon zu investieren.

Usability

Neben vielen nützlichen Funktionen punktet eine gute Spracherkennungssoftware mit einer einfachen Bedienbarkeit und einer hohen Anwendungsfreundlichkeit. So geht beispielsweise die Installation der Spracherkennungssoftware mithilfe eines integrierten Installationsassistenten meist ohne Probleme von der Hand. Besonders EinsteigerInnen, aber auch fortgeschrittene AnwenderInnen, profitieren von einem Lernprogramm, das zum einen die Funktionen der Spracherkennungssoftware erklärt und zum anderen eine gute Aussprache trainiert. Von Vorteil ist zudem, wenn sich das Spracherkennungsprogramm an die Stimme des Anwenders oder der Anwenderin anpasst.

Darüber hinaus ist von Bedeutung, ob NutzerInnen mit dem Programm eigene, persönliche Sprachbefehle erstellen können und ob die Möglichkeit besteht, mit einer Lizenz mehrere Profile zu erstellen. Praktisch ist es für NutzerInnen, wenn das Programm nicht nur externe Mikrofone und Headsets, sondern auch das eingebaute Laptop-Mikrofon erkennt. Pluspunkte gibt es außerdem für nützliche Apps, die mit der Software kompatibel sind und es beispielsweise ermöglichen, von unterwegs nahtlos weiterzuarbeiten.

Performance

Hinsichtlich der Performance sind die Erkennungsgenauigkeit, also die Erkennungsrate und der Umfang des Vokabulars, sowie die Systemanforderungen von Bedeutung. Während die Erkennungsrate guter Spracherkennungssoftware meist ähnlich hoch ist (bei bis zu 99 Prozent von Beginn an), gibt es hinsichtlich der Systemanforderungen größere Unterschiede. So sind die meisten Programme zur Spracherkennung ausschließlich mit Windows-Rechnern kompatibel, andere dagegen richten sich speziell an Mac-UserInnen.

Neben dem verwendeten Betriebssystem sollten AnwenderInnen vor dem Kauf außerdem überprüfen, ob genug freier Festplattenspeicher und ausreichend Arbeitsspeicher zur Verfügung stehen. Einige Programme stellen zusätzlich bestimmte Anforderungen an den Prozessor und die Soundkarte. Zur Produktaktivierung ist in der Regel eine Internetverbindung notwendig. Sehr praktisch ist es, wenn die Spracherkennungssoftware mit einem Bluetooth-Headset kompatibel ist, sodass AnwenderInnen die Möglichkeit haben, kabellos zu diktieren.

Hilfe und Support

Schließlich empfiehlt sich ein umfangreiches Support-Angebot seitens der Hersteller von Spracherkennungsprogrammen. Sie gewährleisten, dass NutzerInnen mit Fragen und Problemen nicht allein dastehen. In der Regel steht dafür auf der Homepage des Anbieters ein umfangreiches Benutzerhandbuch zum Download bereit, das die Handhabung aller beinhalteten Features der Spracherkennungssoftware erklärt. Anschaulicher wird das Ganze mit Video-Tutorials. Bei allgemeinen Fragen etwa zum Download oder zur Installation hilft häufig schon ein FAQ-Bereich weiter.

Darüber hinaus sind mehrere Optionen zur persönlichen Kontaktaufnahme ratsam. Mindestens ein Kontaktformular oder eine E-Mail-Adresse sollten AnwenderInnen auf der Hersteller-Website finden. Idealerweise stehen zusätzlich ein Live-Chat und eine kostenlose Telefon-Hotline zur Verfügung, die rund um die Uhr erreichbar sind.

Weiterführende Testberichte

Achtung: Hierbei handelt es sich um einen Vergleich. Wir haben die Spracherkennungssoftware nicht selbst getestet.

Zwar wurde Spracherkennungssoftware in den Jahren 2000 bis 2016 oft von Fachmagazinen unter die Lupe genommen, aktuelle Tests sind jedoch nicht auffindbar. Zu den neueren Produkttests gehören zwei Einzeltests: Dragon Naturally Speaking 13, der Vorgänger von Dragon Home, durch die Redaktion von com!professional und Nuance Dragon Professional Individual 14 durch die Computerzeitschrift PC Magazin. Die Tests erschienen jeweils in den Jahren 2014 und 2015.

Um die Erkennungsrate zu überprüfen, diktierten die TesterInnen von com!professional drei Seiten aus einem historischen Krimi, ohne die Software zuvor trainiert zu haben. Bei der Auswertung ermittelten sie ungefähr 10 Fehler pro Seite. Mit Training sei den TestredakteurInnen zufolge eine noch bessere Genauigkeit möglich. Darüber hinaus sei nicht nur der Funktionsumfang groß, sondern auch die Hardware-Kompatibilität, darunter etwa minderwertige Laptop-Mikrofone. Allerdings erfordert die Steuerung etwas Einarbeitung. Die TesterInnen hatten zu Beginn beispielsweise Schwierigkeiten mit den Korrekturbefehlen. Insgesamt erhielt das Produkt die Note 1,5.

Die TesterInnen des PC Magazins prüften die Spracherkennungssoftware mithilfe eines Windows-10-Enterprise-Computers und eines USB-Headsets von Sennheiser. Sie nutzten sowohl komplett deutschsprachige Texte als auch solche, die englische Fachbegriffe enthielten. Besonders gefallen hat ihnen die Möglichkeiten, Wörter selbst hinzuzufügen und zu personalisieren. Zudem passte sich die Software im Test schnell an die SprecherInnen an. Schlussendlich bekam Dragon Professional Individual 14 das Testurteil „sehr gut“ (88 von 100 Prozent).