Spracherkennungssoftware

Die besten Spracherkennungsprogramme im Vergleich

Lena Groeben
Platz Produkt Bewertung Preis
1 Dragon Professional Individual 4,85 399,00 €
2 Dragon für Mac 4,79 199,00 €
3 Dragon Home 4,76 99,00 €
4 Voice Pro 4,50 129,00 €

Funktionsumfang

Usability

Performance

Hilfe & Support

Texte einfach diktieren statt zu schreiben

    Das Wichtigste in Kürze
  • Eine Spracherkennungssoftware setzt gesprochene Worte in geschriebenen Text um und ermöglicht es dem Anwender, seinen PC per Sprachbefehl zu steuern.
  • Aktuelle Spracherkennungsprogramme erreichen bereits von Beginn an eine Erkennungsrate von bis zu 99 Prozent.
  • Mit einer solchen Software erleichtern Nutzer sich die Arbeit am PC, arbeiten bis zu dreimal schneller als beim Tippen und schonen Hände und Nacken.
  • Für Juristen und Ärzte gibt es häufig spezielle Ausgaben der Spracherkennungssoftware.

Das Fazit der Redaktion

Die verschiedenen Spracherkennungsprogramme in unserem Vergleich durchlaufen nacheinander diese vier Bewertungskriterien und können in jedem zwischen 0.00 und 5.00 Punkten erreichen. Die gesammelten Punkte fließen am Ende zu gleichen Anteilen in die Gesamtbewertung ein, aus der sich schließlich auch die Rangreihenfolge der Programme im Spracherkennugs-Test ergibt. Das Unternehmen Nuance ist mit ihrer Dragon Serie aktuell führender Anbieter auf dem Markt der Spracherkennungssoftware und stellt dies auch im Vergleich unter Beweis.

Anwender, die sich mit einer Spracherkennungssoftware den Arbeitsalltag vereinfachen und damit ihre Produktivität steigern möchten, sind mit Nuance Dragon Professional Individual äußerst gut beraten. Zusätzlich zu vielen nützlichen Funktionen wie Transkriptionstools und praktischen Apps lässt sich die Software hervorragend an die individuelle Arbeitsweise des Anwenders anpassen. Für Privatanwender bietet Nuance Dragon Home viele praktische Funktionen zu einem hervorragenden Preis-Leistungs-Verhältnis. Und auch Mac-User kommen bei Nuance nicht zu kurz: Mit Nuance Dragon für Mac finden sie eine leistungsstarke Spracherkennungssoftware, die sich sowohl für den privaten als auch für den beruflichen Einsatz eignet. Trotzdem sollten Interessenten auch das Angebot Voice Pro der Linguatec Sprachtechnologien GmbH in Betracht ziehen.

Headset
Vergrößern
Die Spracherkennungsprogramme in unserem Vergleich eignen sich sowohl für den privaten als auch für den beruflichen Einsatz.

1. Was ist eine Spracherkennungssoftware?

Der Begriff "Spracherkennungssoftware" bezeichnet Computerprogramme, die gesprochene Sprache identifizieren und in schriftlichen Text umwandeln beziehungsweise darauf reagieren. Oftmals spricht man auch von Diktiersoftware. Dabei analysiert der Computer die eingegebenen Sprachinformationen hinsichtlich der gesprochenen Wörter, ihrer Bedeutung sowie der individuellen Charakteristika des Sprechers.

Nicht verwechseln:

Der Begriff Spracherkennung ist von der Stimmerkennung zu unterscheiden. Die Stimmerkennung bezeichnet ein biometrisches Verfahren, das Personen anhand ihrer Stimme identifiziert.

Was kann Spracherkennungssoftware?

Mittlerweile ermöglichen es gute Spracherkennungsprogramme ihrem Nutzer, per Sprachbefehl seinen PC zu steuern, seine E-Mails und Kalendereinträge zu verwalten und das Internet zu durchsuchen. Zudem sind solche Spracherkennungsprogramme in der Lage, gesprochene Sätze in Schrift umzusetzen. Voraussetzung hierfür ist üblicherweise eine kurze Trainingseinheit, in deren Rahmen der Nutzer einen Text laut sprechen muss. Gute Spracherkennungssoftware ist lernfähig und verbessert ihre Erkennungsrate im Laufe der Zeit. Aktuell gibt es Diktiersoftware auf dem Markt, deren Erkennungsgenauigkeit bereits von Beginn an bis zu 99 Prozent erreicht. Bei einfachen Texten und Diktaten ist übrigens mühelos eine Spracherkennung von 100 Prozent zu erreichen. Neue Programme fügen auch schon eigenständig Punkt und Komma in die Texte ein. Diese Funktion muss jedoch noch weiterentwickelt werden, somit ist es aktuell noch sinnvoll, die Interpunktionszeichen in Diktaten mit zu diktieren. Dies bedeutet, dass Nutzer im Fließtext Satzzeichen wie „Komma“ oder „Punkt“ mit diktieren. Zunächst mag ihnen dies vielleicht etwas seltsam erscheinen. Der kleine Mehraufwand lohnt sich allerdings, da sich Satzzeichen so an den richtigen Stellen befinden.

Spracherkennungs Software
Vergrößern
Mit einer Spracherkennungssoftware bedienen Anwender ihren PC ganz bequem per Sprachsteuerung.

2. Welche Vorteile bietet eine Spracherkennungssoftware?

Spracherkennungssoftware macht es dem Anwender im Idealfall möglich, die Arbeit am PC ausschließlich per Sprachbefehl zu erledigen, sodass Maus und Tastatur fast überflüssig werden. Sie erhöht den Bedienkomfort des Computers, vereinfacht die Schreibarbeit und steigert die Produktivität des Anwenders. So erstellen Nutzer mithilfe der Diktierfunktion einer Spracherkennungssoftware ihre Texte bis zu dreimal schneller als beim selbstständigen Tippen.

Darüber hinaus bieten die meisten Programme die Möglichkeit, Texte unterwegs mit einem Diktiergerät aufzunehmen und die Aufnahmen Zuhause von der Software in geschriebenen Text umsetzen zu lassen. Auch für die Gesundheit ist eine Spracherkennungssoftware vorteilhaft: Während Anwender beim Tippen an eine unnatürliche Haltung gebunden sind und zudem die Sehnen ihrer Hände und Unterarme belasten, haben sie beim Diktieren die Möglichkeit, sich frei zu bewegen und so ihre Hände und Arme sowie Rücken und Nacken zu entspannen. So minimieren sie etwa die Risiken einer Sehnenscheidenentzündung oder von Rückenschäden. Die folgende Übersicht fasst die wichtigsten Vorteile einer Spracherkennungssoftware zusammen.

Ein wenig Geschichte am Rande

Seit den 1960er Jahren beschäftigen sich Forscher mit der Entwicklung von Spracherkennungssystemen – aufgrund der begrenzten technischen Möglichkeiten lange Zeit wenig erfolgreich. Bereits im Jahr 1997 erschien die Version 1.0 der heute so erfolgreichen Software-Reihe Dragon NaturallySpeaking.

Vorteile von Spracherkennungssoftware

  • Texte bis zu dreimal schneller erstellen als beim Tippen
  • Effizienter und zeitsparender arbeiten
  • Hände und Nacken schonen

3. Wie funktioniert die Spracherkennung?

Die Spracherkennung ist ein Teilgebiet der angewandten Informatik, der Ingenieurswissenschaften und der Computerlinguistik. Ziel ist dabei, die gesprochene Sprache der automatischen Datenerfassung zugänglich zu machen. Dabei wird zwischen sprecherunabhängiger und sprecherabhängiger Spracherkennung unterschieden.

Sprecherunabhängige Spracherkennung

Diese Form ist auf eine breite Anwenderschicht ausgelegt. Benutzer können sofort und ohne Trainingsphase mit dem Diktieren beginnen. Dabei ist der Wortschatz allerdings auf einige tausend Wörter beschränkt. Diese Systeme werden bevorzugt im technischen Bereich eingesetzt, etwa bei einem Dialogsystem wie einer automatischen Fahrplanauskunft.

Sprecherabhängige Spracherkennung

Die Sprecherabhängigen Systeme müssen hingegen vor der Verwendung auf Besonderheiten der Aussprache trainiert werden. Neuere Systeme ermöglichen das Anlernen auch während der Benutzung. Im Gegensatz zur sprecherunabhängigen Spracherkennung können hier individuelle Interaktionsmöglichkeiten mit dem System programmiert werden, etwa eigene Begriffe oder Abkürzungen. Der Einsatz mit häufig wechselnden Nutzern, zum Beispiel in einem Callcenter, ist mit einem solchen System daher nicht sinnvoll. In diesen Systemen ist der verfügbare Wortschatz im Vergleich zu sprecherunabhängigen Systemen viel größer: Etwa 300.000 Wörter sind möglich.

Front-End- oder Back-End-System

Ein weiteres technisches Unterscheidungskriterium ist die Art der technischen Anbindung. Bei Front-End-Systemen wird die Sprache unmittelbar in Text umgesetzt. Das Ergebnis liegt in diesen Fällen ohne nennenswerte Zeitverzögerung vor. Die technische Umsetzung kann dabei vor Ort am Computer des Nutzers oder Cloud-basiert erfolgen. Die bei diesem System gegebene unmittelbare Interaktion zwischen dem Nutzer und dem System garantiert höchste Erkennungsqualität.

Bei Back-End-Systemen erfolgt die Umsetzung hingegen zeitversetzt: Die Verarbeitung erfolgt dabei auf einem oftmals weit entfernten Server, der Text steht dadurch erst mit Verzögerung zur Verfügung. Diese Lösungen sind aktuell im medizinischen Anwendungsbereich noch sehr verbreitet. Da keine unmittelbare Interaktion erfolgt, sind zufriedenstellende Ergebnisse nur dann zu erwarten, wenn der Benutzer bereits Erfahrung mit Sprachsteuerung hat.

Aktuelle Umsetzungen

Moderne Spracherkennungssysteme erreichen bei Diktaten an PCs eine Erkennungsquote um 99 Prozent und erfüllen so in vielen Bereichen die Anforderungen für die praktische Einbindung. Dies ist bei wissenschaftlichen Texten, Geschäftskorrespondenzen und juristischen Schriftsätzen der Fall. An ihre Grenzen stoßen solche Systeme, wenn der Autor fortlaufend neue, vom System nicht erkennbare Wörter benötigt. Zwar ist das manuelle Hinzufügen neuer Wörter manuell möglich, werden diese aber nur selten oder gar einmalig genutzt, ist diese Verfahrensweise wenig effizient. Anwender wie Dichter profitieren von diesen Systemen daher weniger als Ärzte oder Rechtsanwälte.

Qualität der Aufnahme spielt eine wichtige Rolle

Von nicht zu unterschätzender Bedeutung für eine erfolgreiche Texterkennung ist dabei die Qualität der Tonaufnahmen. Bei Mikrofonen, die direkt vor dem Mund getragen werden, etwa bei Headsets oder Telefonen, ist die Erkennungsrate deutlich höher als bei Mikrofonen, die im Raum angebracht sind. Außerdem spielen Umgebungsgeräusche eine Rolle, die zunächst herausgefiltert werden müssen. Dies wird beispielsweise relevant, wenn der Sprecher das Diktat unterwegs im Berufsverkehr aufzeichnet.

Zerlegung des Textes in N-Gramme

Sogenannte N-Gramme sind das Ergebnis der Zerlegung eines Textes in einzelne Fragmente. So zerlegt eine Spracherkennungssoftware einen gesprochenen Text in einzelne Buchstaben, Phoneme oder Wörter. Einzelne Wörter, ganze Sätze oder auch komplette Texte werden zur Analyse in N-Gramme zerlegt. Normalerweise arbeiten Programme mit Bi- oder Tri-Grammen, also Zerlegungen in Fragmente mit zwei oder drei Buchstaben. Eine Ausnahme ist hier der Hersteller Dragon: Er nutzt in seiner Software auch die Zerlegung in Pentagramme, also Kombinationen mit bis zu fünf Buchstaben. Dieses Verfahren ist deutlich komplexer, erhöht aber auch die Ergebnisgenauigkeit.

Anwendungsbeispiele

Spracherkennungssoftware wird bereits heute serienmäßig für viele Endgeräte wie Smartphones, Tablets, Computer und Smart Speaker angeboten. Beispiele sind die Technologien, die unter den Markennamen Siri (Apple), Google Now (Google), Cortana (Microsoft), Amazon Echo & Alexa (Amazon) und S Voice (Samsung) angeboten werden.

4. Für wen lohnt sich eine Spracherkennungssoftware?

Die meisten Anbieter von Spracherkennungssoftware haben unterschiedlich umfangreiche Versionen ihrer Spracherkennung im Sortiment. So gibt es in der Regel eine vergleichsweise günstige Variante, die sich auf die Basis-Features der Spracherkennung beschränkt und sich in erster Linie an unerfahrene Privatanwender richtet. Neben dieser Nutzergrupe, die mit einer solchen Spracherkennungssoftware ihren PC-Alltag vereinfacht, Hände und Rücken schont und Zeit spart, profitieren einige Berufsgruppen besonders von dem Einsatz einer Spracherkennungssoftware.

Dazu gehören Ärzte, etwa Chirurgen oder Zahnärzte, die während der Arbeit keine Hand frei haben. Trotzdem können mithilfe einer Spracherkennungs-Software selbst während der Behandlung Notizen bezüglich Anamnese und Therapie erfasst werden. Für diese Anwender stehen Spezialmodule mit einer besonderen Erkennungsstufe für medizinische Fachtermini bereit. So wird das in diesen Bereichen hohe Dokumentationsaufkommen deutlich erleichtert.

Ebenso stehen bei einigen Softwares Spezialmodule für Juristen bereit. Hier sind Begriffe aus Gesetztestexten enthalten, die von diesen Nutzern besonders häufig benötigt werden.

Darüber hinaus ermöglicht ein Spracherkennungsprogramm Menschen, die aufgrund einer Behinderung Tastatur und Maus nicht bedienen können, das Arbeiten mit einem Computer. Dazu gehören Anwender, die unter einer Lähmung leiden genauso wie Betroffene einer Amputation. Für diese Nutzergruppen stellt eine Spracherkennungs-Software eine sehr große Erleichterung dar. Neben dem Diktieren von Texten ist auch die Steuerung des Computers möglich. E-Mails verfassen und absenden, Programme oder Webseiten öffnen – auch per Sprachsteuerung alles kein Problem.

Wer profitiert besonders von einer Spracherkennungssoftware?

  • Berufsgruppen wie Mediziner, die viel diktieren und zeitgleich ihre Hände benötigen und diverses Fachvokabular benutzen
  • Berufsgruppen, die häufig Standardtexte benutzen (beispielsweise Juristen)
  • Körperlich behinderte Menschen, die Tastatur und Maus nur eingeschränkt oder gar nicht bedienen können

Ein gutes Mikrofon sollte es schon sein

Die beste Software wird durch die Hardware limitiert. Die meisten aktuellen Computer sollten für die Umsetzung der Spracherkennung genügen. Anders sieht es bei den Mikrofonen aus, mit denen die Diktate aufgezeichnet werden. Stellt der Nutzer fest, dass es Probleme bei der Texterkennung gibt, kann es sich lohnen, in ein hochwertigeres Mikrofon zu investieren. Einige Softwares haben ein Headset oder ein Mikrofon im Lieferumfang.

So vergleichen wir

Zwar ist das Angebot an leistungsfähiger Spracherkennungssoftware aktuell noch vergleichsweise beschränkt, dennoch gibt es zwischen den vorhandenen Programmen teilweise große Unterschiede in der Spracherkennung, auf die der Käufer bei seiner Entscheidung für eine Spracherkennungssoftware achten sollte. Beispielsweise eignet sich ein Spracherkennungsprogramm besonders gut für private Anwender ohne umfangreiche Vorkenntnisse, während sich ein anderes Programm zur Spracherkennung gezielt an Unternehmen und die im beruflichem Umfeld relevanten Anforderungen richtet. Um den Überblick zu vereinfachen und eine Orientierungshilfe bei der Kaufentscheidung zu bieten, werden die Spracherkennungsprogramme im Test anhand von vier Bewertungskriterien genauer unter die Lupe genommen. Im Test steht neben der großen Vielfalt von Nuance mit ihrer Dragon-Serie ein weiteres hervorragendes Programm der Spracherkennung in Form von Voice Pro des Herstellers Linguatec Sprachtechnologien GmbH im Fokus.

Die verschiedenen Spracherkennungsprogramme in unserem Vergleich durchlaufen nacheinander die vier Bewertungskriterien „Funktionsumfang“, „Usability“, „Performance“ sowie „Hilfe und Support“ und können in jedem Kriterium zwischen 0,00 und 5,00 Punkten erreichen. Die gesammelten Punkte fließen am Ende zu gleichen Anteilen in die Gesamtbewertung ein, aus der sich schließlich auch die Rangreihenfolge der Programme im Spracherkennungs-Test ergibt.

Funktionsumfang

Ein entscheidendes Kriterium bei der Wahl einer Spracherkennungssoftware ist der Funktionsumfang des Spracherkennungsprogramms. Zu den Basis-Funktionen, die in aller Regel bereits in günstigen Versionen gängiger Spracherkennungssoftware für Privatanwender enthalten sind, gehören beispielsweise eine Diktierfunktion in deutscher Sprache sowie das Bearbeiten und Formatieren von Texten per Sprachbefehl. Viele der Programme zur Spracherkennung ermöglichen es dem Anwender darüber hinaus, per Sprachbefehl das Internet zu durchsuchen, Formulare auszufüllen, seinen Kalender zu verwalten sowie E-Mails zu diktieren, zu bearbeiten und zu versenden. Etwas seltener enthalten Spracherkennungsprogramme im Lieferumfang ein Headset. Hierbei müssen Käufer außerdem beachten, dass die Programme zur Spracherkennung das gegebenenfalls angepriesene Headset ausschließlich in der Versand-Version und nicht in der Download-Variante enthalten. Sogenannte Transkriptionstools, welche Audiodateien mit gesprochenem Text, wie beispielsweise Aufnahmen mit einem Diktiergerät, in Schrift umwandeln, gehören häufig nicht zu den Basis-Funktionen der Spracherkennungssoftware und sind daher erst ab einer umfangreicheren Edition enthalten, ebenso wie eine Diktierfunktion in englischer Sprache.

Usability

Neben vielen nützlichen Funktionen punktet eine gute Spracherkennungssoftware in unserem Vergleich mit einer einfachen Bedienbarkeit und einer hohen Nutzerfreundlichkeit. So funktioniert beispielsweise die Installation der Spracherkennungssoftware mithilfe eines integrierten Installationsassistenten einfach und geht meist ohne Probleme von der Hand. Besonders Einsteiger, aber auch fortgeschrittene Anwender, profitieren von einem Lernprogramm, das zum einen die Funktionen der Spracherkennungssoftware erklärt und zum anderen eine gute Aussprache trainiert. Von großem Vorteil ist es zudem, wenn sich das Spracherkennungsprogramm an die Stimme des Anwenders anpasst. Darüber hinaus prüfen wir im Test unter diesem Bewertungspunkt, ob Nutzer des Programms damit eigene, persönliche Sprachbefehle erstellen können und ob die Möglichkeit besteht, mit einer Lizenz mehrere Benutzerprofile der Spracherkennung zu erstellen. Praktisch ist es für den Nutzer, wenn das Programm zur Spracherkennung nicht nur externe Mikrofone und Headsets, sondern auch das eingebaute Laptop-Mikrofon erkennt. Pluspunkte gibt es außerdem für nützliche Apps, die mit der Software kompatibel sind und es beispielsweise ermöglichen, von unterwegs aus nahtlos weiterzuarbeiten.

Performance

Hinsichtlich der Performance einer Spracherkennungssoftware achten wir im Test zum einen auf deren Erkennungsgenauigkeit, also die Erkennungsrate und den Umfang des Vokabulars, und zum anderen auf ihre Systemanforderungen. Während die Erkennungsrate guter Spracherkennungssoftware meist ähnlich hoch ist (bei bis zu 99 Prozent von Beginn an), gibt es hinsichtlich der Systemanforderungen größere Unterschiede. So sind die meisten Programme zur Spracherkennung ausschließlich mit Windows-Rechnern kompatibel, andere dagegen richten sich speziell an Mac-User. Neben dem verwendeten Betriebssystem sollten Anwender vor dem Kauf außerdem überprüfen, dass sie genug freien Festplattenspeicher und ausreichend Arbeitsspeicher zur Verfügung haben. Einige Programme stellen zusätzlich bestimmte Anforderungen an den Prozessor und die Soundkarte. Zur Produktaktivierung ist in der Regel eine Internetverbindung notwendig. Sehr praktisch ist es, wenn die Spracherkennungssoftware mit einem Bluetooth-Headset kompatibel ist, sodass Anwender die Möglichkeit haben, kabellos zu diktieren.

Hilfe und Support

Schließlich punkten die Hersteller der Spracherkennungsprogramme in unserem Vergleich mit einem umfangreichen Support-Angebot, welches gewährleistet, dass der Nutzer mit Fragen und Problemen nicht alleine dasteht. In der Regel steht dafür auf der Homepage des Anbieters ein umfangreiches Benutzerhandbuch zum Download bereit, welches die Handhabung aller beinhalteten Features der Spracherkennungssoftware erklärt. Anschaulicher wird das Ganze mit Video-Tutorials. Bei allgemeinen Fragen etwa zum Download oder zur Installation hilft häufig schon ein FAQ-Bereich weiter. Darüber hinaus stellt ein guter Spracherkennungssoftware-Anbieter seinen Kunden Optionen zur persönlichen Kontaktaufnahme zur Verfügung. Mindestens ein Kontaktformular oder eine E-Mail-Adresse sollten fragende Anwender auf der Hersteller-Webseite finden. Idealerweise stehen dort zusätzlich ein Live-Chat und eine kostenlose Telefon-Hotline zur Nutzung bereit, die bestenfalls rund um die Uhr erreichbar ist.