Was die Word-Rechtschreibprüfung kann
– und was nicht (Teil 1)
Für die meisten von uns ist die automatische Rechtschreibprüfung von Word nicht mehr wegzudenken. Egal ob im privaten Gebrauch oder beim Verfassen von Texten für die eigene Firma – Word hat uns mit dieser Funktion einen treuen Gehilfen an die Seite gestellt. Schreibt man seit der neuen Rechtschreibung „Faß“ oder „Fass“? Egal, einmal Enter oder Leerzeichen gedrückt und schon zeigt die rote Wellenlinie klar und deutlich, dass „Faß“ wohl veraltet ist. Wozu also überhaupt noch Texte zum Lektorat geben? Eine berechtigte Frage, für deren Antwort wir die Word-Rechtschreibprüfung etwas genauer unter die Lupe nehmen müssen.
Wenn die meisten von uns ganz allgemein über die „Word-Rechtschreibprüfung“ sprechen, meinen sie damit eigentlich zwei verschiedene Funktionen: die Rechtschreibprüfung und die Grammatikprüfung. Beginnen wir mit der Rechtschreibprüfung: Um zu verstehen, was die Word-Rechtschreibprüfung kann und was nicht, müssen wir uns anschauen, wie Word eigentlich prüft, ob ein Wort richtig oder falsch geschrieben ist. Für jede Sprache hat Word ein eigenes Wörterbuch integriert, das Unmengen an Wörtern und Wortformen enthält. Sobald wir ein Wort getippt und durch ein Leerzeichen oder einen Absatz als zu Ende geschrieben markiert haben, gleicht Word in Sekundenschnelle das getippte Wort mit dem internen Wortschatz ab. Existiert das Wort – perfekt, alles richtig gemacht. Existiert das Wort nicht – falsche Rechtschreibung, rote Wellenlinie! In Wirklichkeit bedeutet „Rechtschreibprüfung“ für Word also das Überprüfen, ob ein Wort in der deutschen Sprache bzw. im Word-Wörterbuch existiert. Findet Word ein Wort nicht in seinem Wörterbuch, wird dieses rot unterwellt. So weit – so klar.
Mit Office 1997 wurde die Rechtschreibprüfung durch eine Grammatikprüfung ergänzt. Wer das alte Word noch verwendet hat, kann sich bestimmt an die grün unterwellten Wörter erinnern – ein klares Zeichen für einen Grammatikfehler. In Word 2019 gibt es allerdings keine grünen Wellen mehr. Stattdessen wurden Grammatikfehler mit Wortauswahlfehlern in eine Kategorie gegeben und beide werden seither doppelt blau unterstrichen.
Fehler in der Fehlerprüfung
Dass die Word-Rechtschreib- und Grammatikprüfung nicht immer reibungslos funktioniert, zeigt sich am typischen „seid-seit“-Fehler. Nehmen wir etwa den Satz „Seit nicht böse.“ Kaum geschrieben und die Leertaste gedrückt, erwarten die Rechtschreibsicheren unter uns, dass angesichts dieses gravierenden Fehlers schon beinahe der Bildschirm explodiert – naja oder zumindest doch eine Wellenlinie auftaucht. Aber nichts passiert. Wie kann das sein?
Mit dem Drücken der Leertaste beginnt Word damit, alle Wörter in seinem Wörterbuch nach den einzelnen Wörtern im Satz zu durchsuchen. Word findet alle Wörter – auch das Wort „seit“ – und beschließt, dass der Satz frei von Rechtschreibfehlern ist und somit auch nichts rot unterwellt werden muss. Gleichzeitig sucht Word im Satz außerdem nach Grammatik- und Wortauswahlfehlern. Und um Letzteres handelt es sich beim „seid-seit“-Fehler. Eigentlich müsste also eine stechend blaue Linie den Fehler eindeutig erkennbar machen. Aber aus irgendeinem Grund bemerkt selbst Word diesen Fehler nicht. Über die Gründe dafür kann nur spekuliert werden, denn zu der genauen Funktionsweise der Grammatikprüfung lässt Microsoft keine Einblicke zu, sie verweisen lediglich auf „machine learning“ und „natural language processing technologies.“
Maschinelles Lernen und die Fehlersuche
Maschinelles Lernen bedeutet, dass IT-Systeme durch Erfahrung dazulernen und so anschließend richtige Schlüsse ziehen können. Im Kontext der Schreibprüfung bedeutet das, dass Word auf riesige Text-Datenbanken zugreift, um etwa herauszufinden, also zu „lernen“, welche Wörter häufig in welchen Kombinationen verwendet werden. So hat Word bereits gelernt, dass das Wörtchen „seit“ häufig in Kombination mit Zahlen verwendet wird. „Ich lebe hier seid 2002“ markiert Word deshalb als Grammatikfehler. Eine praktische Sache, aber gleichzeitig auch eine häufige Stolperfalle, denn Maschinen sind nicht per se intelligent. Sie lernen nur das, was ihnen vorgelegt wird. Und manchmal schleichen sich selbst dann, wenn ihnen tausende Texte vorgelegt wurden, noch falsche Zuordnungen und damit Falscherkennungen ein. Denn für die Fehlererkennung in Texten braucht es oft auch den Satzzusammenhang, die Satzlogik und Kontextwissen – und das stellt Maschinen immer wieder vor Herausforderungen.
So zum Beispiel auch beim klassischen dass/das-Fehler. „Ich weiß, das du mir fehlst“ unterstreicht Word blau – Word hat offensichtlich schon gelernt, dass, wenn nach gewissen Wörtern (z.B. weiß) ein Komma steht, als Nächstes ein „dass“ folgen muss. Schreibt man stattdessen „das“ markiert Word sofort den Fehler. Schreibt man allerdings „das“ und vergisst auch das Komma nach „weiß“ – „Ich weiß das du mir fehlst“ – erkennt Word keinen Fehler. Hier fehlt nämlich das Textverständnis, wodurch rechtschreibsichere Menschen erkennen, dass sich hier gleich zwei Fehler eingeschlichen haben.
Zwar wachsen solche künstlichen neuronalen Netzwerke mit großer Geschwindigkeit – so verspricht Microsoft eine ständige Verbesserung seiner Prüffunktionen –, doch bisher reicht das Textvolumen und vor allem die Technologie dahinter noch nicht aus, um alle Fehler zu erkennen. Und auch ungeübte Augen übersehen derartige Fehler leicht – ein professionelles Lektorat ist deshalb besonders bei wichtigen Texten unentbehrlich.
Im nächsten Teil unserer Serie Was die Word-Rechtschreibprüfung kann – und was nicht werden wir uns ansehen, wie gut Word im Erkennen von Kommafehlern ist.
Wir freuen uns auf viele interessierte Leser!
Gefällt's? Zeig's!