Spracherkennung für Autoren

Text
0
Kritiken
Leseprobe
Als gelesen kennzeichnen
Wie Sie das Buch nach dem Kauf lesen
Spracherkennung für Autoren
Schriftart:Kleiner AaGrößer Aa

Inhalt

Einleitung

1 - Vorteil und Nutzen

1.1 - Was ist Spracherkennung?

1.2 - Sprachsteuerung vs Diktieren

1.3 - Schneller als Tippen

1.4 - Ein gesteigertes Arbeitspensum

1.5 - Kein Zwang

1.6 - Natürlichere Dialoge

1.7 - Kreativität und Schreibblockaden

1.8 - Gesundheitliche Gründe

1.9 - Weniger Fehler

1.10 - Die Hände sind frei

2 - Der Autor und das Mikrofon

2.1 - Richtig Diktieren

2.2 - Das richtige Mikrofon

2.3 - Diktieren oder Transkribieren?

3 - Stand der Technik

3.1 - Die Anfänge

3.2 - In der Cloud

3.3 - Standalone mit Deep-Learing

3.4 - Vorteile und Nachteile

3.5 - Erkennungsrate

4 - Spracherkennungssoftware

4.1 - Welcher Anbieter?

4.2 - Microsoft Diktierfunktion

4.2.1 - Verfügbarkeit

4.2.2 - Aktivierung und Benutzung

4.2.3 - Kommandos

4.3 - Google Docs Spracheingabe

4.3.1 - Verfügbarkeit

4.3.2 - Benutzung

4.3.2 - Kommandos

4.4 - Apple Siri

4.4.1 - Einrichtung und Aktivierung

4.4.2 - Benutzung

4.4.3 - Kommandos

4.5 - Nuance Dragon

4.5.1 - Programmversionen

4.5.2 - Anschaffung und Installation

4.5.3 - Benutzung

4.5.4 - DragonPad und das Diktierfenster

4.5.5 - Kommandos

4.5.6 - Sprachmodelloptimierung

4.5.7 - Sicherung des Sprachprofils

4.6 - Test der Erkennungsrate

5 - Tipps und Tricks

5.1 - Das Richtige lernen lassen

5.2 - Korrigieren verbessert die Erkennung

5.3 - Nicht sofort Lossprechen

5.4 - Workflow

5.5 - Erfundene Wörter

5.6 - Mit dem Computer sprechen lernen

5.7 - Transkribieren per Diktiergerät

5.8 - Notizen und Zitate

5.9 - Flüssige Sätze sprechen

5.10 - Mehrere Sprecher

5.11 - Den Mehrwert finden

Nachwort

Impressum und Bildnachweis

Einleitung

Welcher Autor möchte seine Bücher nicht schneller schreiben können? Den ersten Entwurf zwei- bis dreimal so schnell zu Papier bringen? Möglicherweise sogar noch die Fehler reduzieren?

Um dies zu erreichen, optimieren Autoren so gut wie alles, was mit der Tätigkeit des Schreibens zusammenhängt. Spezielle Tastaturen für Vielschreiber werden benutzt, Schreibprogramme für Autoren werden gekauft, der Arbeitsablauf wird optimiert. An jeder Stellschraube wird gedreht, nur an das Diktieren denken wenige!

Diktieren ist Erzählen. Nichts ist so naheliegend, wie die Geschichte einfach zu erzählen, wenn man ein Buch schreibt. Doch zumeist denkt man beim Schreiben an die Tätigkeit, die mit Stift oder Tastatur ausgeübt wird.

Deshalb möchte ich in diesem Buch meine Erfahrungen mit Spracherkennungssoftware teilen. Für mich hat es sich als sehr einfach herausgestellt, eine Diktierfunktion beim Schreiben des Manuskripts zu verwenden. Auch wenn mein Beispiel nicht für alle gültig und für jeden anwendbar ist, denke ich doch, dass viele Autoren davon profitieren können eine Diktiersoftware in ihren Arbeitsablauf einzubinden. Deshalb stelle ich die vier großen Anbieter in einem Vergleich vor und zeige Ihnen wie Sie selber die am besten für Sie geeignete Spracherkennungssoftware finden können.

Die Spracherkennung ist heute für jeden nutzbar, oft wird sie auch schon regelmäßig im Alltag genutzt, denken Sie nur an Ihr Smartphone. Die Erkennungsrate wird im Allgemeinen noch als zu schlecht angenommen, um für das Diktieren von Text nützlich zu sein. Das ist allerdings nicht mehr der Fall, wenn Sie die richtige Spracherkennungssoftware nutzen. Was wäre, wenn die Erkennungsrate bei fast 100 Prozent liegen würde und Sie zwei- bis dreimal so schnell Ihr Manuskript schreiben könnten? Und die Dialoge viel natürlicher klingen?

Ich denke, es ist eine von vielen Autoren noch unentdeckte Möglichkeit ihre Arbeit zu erleichtern und zu beschleunigen. Sie hat sogar das Potenzial diese auch noch zu verbessern. Nutzen Sie die Vorteile einer Spracherkennung für Ihre Arbeit.

Das Hauptaugenmerk in diesem Buch liegt bei der Diktierfunktion einer Spracherkennung. Ich stelle Ihnen die am Markt vorhandenen Spracherkennungssysteme in einem Vergleich vor und zeige Ihnen, wie Sie das am besten geeignete System in Ihre Schreibtätigkeit integrieren können.

Vorteil und Nutzen

Was ist Spracherkennung?

Bei der Spracherkennung muss man unterscheiden zwischen Systemen die gesprochene Kommandos ausführen und denen, die einen diktierten Text umwandeln. Während die Erkennung von einzelnen Kommandos recht einfach ist, weil nur eine Zuordnung des gesprochenen Worts zu einem vorhandenen Befehl erfolgen muss, ist die Erkennung von Text viel schwieriger, weil es dort nötig ist auch die Grammatik und Rechtschreibung zu beachten.

Bei der Erkennung von diktiertem Text muss der gesprochene Satz in seiner gesamten Bedeutung erfasst werden. Die deutsche Sprache gehört nicht zu den einfachsten Sprachen, die Regeln sind zum Teil kompliziert. Aber trotzdem muss eine Spracherkennung eine Erkennung von über 98 Prozent erreichen, wenn sie für den Zweck eingesetzt werden soll, ein Buch zu diktieren.

Eine Erkennung von 98 Prozent bedeutet, dass von 100 Wörtern nur zwei Wörter nicht richtig erkannt werden. Auf einer DIN-A4-Seite befinden sich, wenn sie vollgeschrieben ist, etwa 500 Wörter. Umgerechnet würden sich also zehn Fehler auf einer Seite befinden.

Ein heutiges Buch wird als gut korrigiert angesehen, wenn auf 3 bis 5 Seiten nur ein Fehler zu finden ist. Je mehr Fehler initial in einem Manuskript enthalten sind, desto höher ist die Arbeit, die das Korrektorat leisten muss. Eine Spracherkennung muss also sehr gut sein - weit besser als 98 Prozent - um überhaupt als “gut” empfunden zu werden. Sie sollte mindestens genauso gut sein, wie die Fehlerrate die man beim Tippen auf der Tastatur erreicht.

 

Sprachsteuerung vs Diktieren

Zwischen einer Sprachsteuerung und einer Diktiersoftware existiert ein großer Unterschied in der Benutzung. Eine Sprachsteuerung dient nur der Erkennung von Kommandos, wodurch die Steuerung Ihres Computers durch Ihre Stimme ermöglicht werden soll. Für Menschen mit Einschränkungen ist dies eine Möglichkeit, trotzdem am Computer arbeiten zu können.

Das Diktieren von Text umfasst mehr. Neben der Erkennung der Wörter wird auch auf die Grammatik und Rechtschreibung geachtet. Dies setzt ein umfangreiches Sprachsystem voraus, welches explizit für die Sprache entworfen wurde, mit der Sie sprechen. Dies bedingt aber auch kleinere Einschränkungen, es ist beispielsweise selten möglich, beim Diktieren verschiedene Sprachen zu vermischen. Sie können also nicht einen Satz in Deutsch Diktieren und zwischendrin andere Sätze in Englisch. Das Sprachprofil der Software kommt mit so was nicht klar.


Es gibt Diktiersoftware, die ist in der Lage viele Fachbegriffe und auch Fremdwörter zu erkennen, diese Wörter werden aber entweder schon vom Hersteller mit ausgeliefert, oder vom Anwender angelernt. Bei einer Diktiersoftware, die lokal installiert wird, ist das Anlernen von neuen Wörtern möglich. Bei einer generischen Spracherkennung, meist bei einer in der Cloud laufenden Software, ist dies allerdings nicht möglich.

Rechtsanwälte und Ärzte, zwei Berufsgruppen, die oft eine Diktiersoftware verwenden, kennen dieses Problem. Allerdings kaufen diese oft eine spezielle Version von Dragon, die die nötigen Fremdwörter für diese Berufsgruppen schon mitbringt. Als Schriftsteller und Autor wird es im Allgemeinen nicht nötig sein solch eine Version zu verwenden, es reicht oft aus, die Standardversion zu nutzen.

Zu den Anbietern, den verschiedenen Versionen und der Verfügbarkeit erzähle ich im Kapitel “Anbieter” mehr.

Wenn das auf Ihrem Computer verwendete Betriebssystem eine Sprachsteuerung besitzt, muss diese allerdings nicht unbedingt ausreichend geeignet sein und Texte diktieren zu können. Die Sprachsteuerung mag ausreichen, um ihrem Computer Befehle zu geben, aber nicht um fehlerfrei längere Texte zu erkennen.

Schneller als Tippen

Diktieren ist schneller als Tippen. Aber nicht nur das Erstellen des Textes ist schneller, auch beim Korrigieren, dem Schritt danach, wird Zeit gespart. Da beim Diktieren mit einer guten Diktiersoftware die Erkennungsrate bei über 98 Prozent liegt, sind in einem längeren Text wenige Fehler enthalten. Dies spart in späteren Überarbeitungsschritten Zeit.

In diesem Buch verwende ich einen Beispieltext, um die Erkennungsrate der verschiedenen Sprachsysteme zu vergleichen. Aber vergleichen wir auch mal anhand dieses Textes die Geschwindigkeit zwischen Tippen und Diktieren.


Ich gehöre nicht zu den schnellsten Schreibern mit einer Tastatur. Deshalb habe ich nicht nur meine Zeit gemessen, sondern auch die von einer Person, die mit zehn Fingern und ohne auf die Tastatur zu blicken schreiben kann und dies deutlich schneller als ich es kann. Dabei diente folgender Text als Beispiel:

Die Erzählperspektive aus der dritten Person nennt man auch die personale Erzählperspektive. Dieser Erzähler ist quasi unsichtbar, im Gegensatz zum Ich-Erzähler keine an der Geschichte teilnehmende Figur. Vielmehr ist es so, als ob er stets dicht hinter einer Figur steht und über deren Schulter das Geschehen beobachtet und erzählt. Dieser Erzähler wird auch als Perspektivträger bezeichnet. Es ist auch möglich, dass er in den Kopf einer Figur schauen kann, also weiß, was sie denkt und fühlt. Er kennt die Gedanken jeder Figur. Eine Figur sowohl von innen als auch von außen schildern zu können, gibt dem Autor eine große Flexibilität.

Die gemessene Zeit, diesen Text mit 100 Wörtern auf der Tastatur zu schreiben, lag bei uns im schlechtesten Fall bei 2 Minuten und 15 Sekunden (das sind etwa 280 Anschläge pro Minute), im besten Fall bei 1 Minute und 50 Sekunden (etwa 350 Anschläge pro Minute).

Den gleichen Text zu diktieren, hat mit Dragon 46 Sekunden gedauert (etwa 850 Anschläge pro Minute). Im Vergleich zu meiner Schreibgeschwindigkeit kann ich also dreimal schneller diktieren, als mit der Tastatur schreiben.

Geübte Zehn-Finger-Schreiber kommen auf bis zu 400 Anschläge pro Minute. Selbst da ist Dragon fast doppelt so schnell in der Erkennung. Wichtig beim Diktieren von Text ist allerdings, dass Sie in ganzen Sätzen sprechen. Eine Spracherkennungssoftware wie Dragon ist nicht dafür gemacht nur einzelne Wörter zu erkennen, sondern hat seine Stärke bei der Erkennung von ganzen Sätzen. Sprechen Sie also Ihre Sätze zusammenhängend und mit normaler Sprechweise fließend ins Mikrofon. Nach der Nennung von Satzzeichen können Sie Luft holen und weiter sprechen. Die Sätze mögen manchmal etwas verzögert erscheinen, das hat aber nicht den Grund, dass die Software Sie schlecht verstehen würde. Wenn solche Pausen entstehen, wartet die Software einfach auf das Ende Ihres Satzes, um die richtige Entscheidung über Grammatik und Rechtschreibung zu treffen.

Interessanterweise kommt einem die Zeit beim Diktieren länger vor als beim Tippen. Das ist aber rein subjektiv. Je länger Sie diktieren und je mehr Sie sich daran gewöhnen, desto weniger werden Sie noch diesen Eindruck haben.

Möglicherweise werden Sie es auch nicht gewohnt sein den ganzen Tag in ein Mikrofon zu sprechen. In diesem Fall machen Sie einfach alle 20 Minuten eine Pause und stellen Sie sich ein Glas Wasser daneben, falls der Hals trocken wird können Sie so Ihre Stimme wiederherstellen. Mit der Zeit wird es einfacher werden. Übung macht den Meister.

Nehmen Sie nun einmal den Beispieltext, und tippen Sie ihn selber ab. Stoppen Sie die Zeit die Sie dafür benötigen. Später können Sie so vergleichen, wie viel schneller Sie beim Diktieren gegenüber Ihrer herkömmlichen Arbeitsweise sind. Danach geht es weiter …