M11.1 Lesson 1 | HI-LING working page

Lektion 1: Machine Speech Tagging

Definition:
Machine Speech Tagging ist die automatische Zuweisung von sprachlichen Tags zu gesprochenem sowie geschriebenem Text zur Kennzeichnung von grammatischen Information.

Schlüssel-
konzepte

Syntax, Wortarten
POS-Tagging: Tags, Tagset
Korpusanalyse

EINHEIT 1: POS-TAGGING - SPRACHE ENTSCHLÜSSELN

Zum Einstieg starten wir mit einer kurzen Übung in die Lektion: Die Lehrperson beginnt und nennt ein beliebiges Wort. Im Uhrzeigersinn fügt jetzt jedes Klassenmitglied ein weiteres Wort hinzu, sodass sich fortlaufend ein Satz entwickelt. Macht zwei bis drei Durchgänge und merkt euch die entstandenen Sätze. Ihr könnt vor der Übung entweder ein Thema vorgeben, nachdem sich die Kreisgeschichte richten soll, z. B. die nächste Schulreise, oder ihr lasst eurer Fantasie freien Lauf.

Wie wir sehen, hat es funktioniert. Obwohl wir alle nur einen kleinen Teil zum Satz beigetragen haben und nicht wussten, wie er enden wird, sind zusammenhängende Sätze entstanden, die wir – wahrscheinlich mit viel Fantasie – auch im Alltag gebrauchen könnten. Weshalb ist das so? Woher wussten wir überhaupt, welche Worte als nächstes passen würden?
Beim Erlernen einer Sprache speichern wir grammatische Grundregeln, die wir für das tägliche Kommunizieren benötigen. Dazu gehört unter anderem ein grundlegendes Verständnis von Satzbau, also: Welches Wort darf ich wo im Satz platzieren? Und dafür ist wiederum die Einteilung in die Wortarten Voraussetzung. Bei dieser scheiden sich die Geister, doch sind für Betrachtung der Stellung im Satz folgende acht Wortarten besonders relevant:

Substantiv (Nomen): «Ding-Wort» – Baum, Brot, Schiff
Verb:«Tun-Wort» – schwimmen, essen, können
Adjektiv: «Wie-Wort», Eigenschaft – schön, rot, scharf
Artikel/ Pronomen: «Begleiter» – der, eine / Stellvertreter – ich, es, ihr, euer
Adverb: Umstandswort – gestern, meistens, hier
Konjunktion: Bindewort – und, aber, oder
Präposition: Verhältniswort – in, am, nach
Partikel: Funktionswort, nicht erfragbar – nicht, sehr, denn

Durch die Wortarten lassen sich die Regeln des Satzbaus verdeutlichen und in allgemeiner Form darstellen: «Der Hund ist bissig.» - Artikel, Nomen, Verb, Adjektiv.

Beim sogenannten POS-Tagging, Part-Of-Speech-Tagging, werden ganz nach diesem Prinzip den verschiedenen Wörtern eines Textes die passenden Wortarten zugeordnet. Die Wörter werden also mit «Tags» versehen, die etwas über sie aussagen. Dazu gibt es verschiedene Zusammenstellungen relevanter Tags – die nennt man «Tagsets» –, die sich je nach Sprache oder Schwerpunkt des Taggings unterscheiden. In der deutschen Sprache wird meist mit dem Stuttgart-Tübingen-Tagset (STTS) gearbeitet. Darin werden die einzelnen Wortarten noch genauer spezifiziert. Das sieht dann ungefähr wie folgt aus:

Dieses Zuordnen zu Wortarten kann einerseits manuell gemacht werden, andererseits gibt es auch automatisierte Tag-Verfahren. Wichtig ist allerdings in beiden Fällen, dass die Wörter immer im Kontext betrachtet werden, denn in manchen Fällen kann ein Wort zwar gleich geschrieben werden, jedoch unterschiedliche Bedeutungen haben. Zum Beispiel: «Ich meine meine Oma». Würde man strikt nach dem Tagset gehen und den Kontext ausser Acht lassen, so würde man beiden «meine» den Tag «Pronomen» zuordnen. Im Zusammenhang ist allerdings klar, dass meine das Verb und mit meine das Pronomen bedeuten soll.
Damit beispielsweise künstliche Intelligenzen, also intelligente Computersysteme, eigenständig Sprache übersetzen oder selbst generieren können, sind ein sauberes POS-Tagging und das Verständnis der allgemeinen Satzstrukturen grundlegend, um überhaupt grammatikalisch korrekte Sätze bilden zu können. Diese Informationen können zum Beispiel auch für die Optimierung von Suchmaschinen hilfreich sein.

Aufgabe 1: Wortarten zuordnen

Übe deine Wortarten-Kenntnisse im POS-Tagging

Wortarten und POS-Tagging will gelehrt sein. Versuche dich selbst am Satz
«Gestern hüpfte die braune Kuh lässig durch das Klassenzimmer und blieb an dem Lehrerpult hängen.»
und ordne jedes Wort der richtigen Wortart (siehe oben) zu.
Hat das geklappt? Dann rufe https://wortarten.info/ auf und lasse den gleichen Satz auf der Webseite taggen. Vergleiche die Unterschiede zu deiner Zuordnung. Wer war schneller? Hast du andere Wortarten zugeordnet als der Computer? Wo entstehen Probleme?

Gestern(Nomen) hüpfte(Verb) die(Artikel) braune(Adjektiv) Kuh(Nomen) lässig(Adverb) durch(Präposition) das(Artikel) Klassenzimmer(Nomen) und(Konjunktion) blieb(Verb) an(Präposition) dem(Artikel) Lehrerpult(Nomen) hängen(Verb).

EINHEIT 2: KORPUSLINGUISTIK

Nicht nur KIs können von den Vorteilen des POS-Tagging profitieren, sondern auch die Forschung der Sprachwissenschaft hat grossen Nutzen davon. Diese technischen Hilfsmittel der Computerlinguistik öffnen dem Teilbereich «Korpuslinguistik» viele neue Möglichkeiten. Wie ihr Name schon sagt, beschäftigt sich die Korpuslinguistik mit verschiedenen Korpora – grosse Sammlungen natursprachlicher Daten. Das kann zum Beispiel ein Korpus aller Ausgaben der NZZ von 2000-2020, ein Korpus mit Dortmunder Chat-Aufnahmen, Deutschen Mundarten oder allgemein der deutschen Gegenwartssprache (Deutscher Referenzkorpus) sein. Da sie alle riesige Massen an Daten umfassen – letzterer beispielsweise über 53 Milliarden Wörter –, ist die Forschungsarbeit damit aus eigenen Kräften nicht zu bewältigen. Dank Computerprogrammen und unter anderem POS-Tagging ist es möglich trotzdem damit zu arbeiten.

Durch die Computeranalyse können zum Beispiel
Wörter, die überdurchschnittlich häufig gemeinsam
verwendet werden, in den Korpora aufgedeckt werden.
So kann es zum Beispiel, je nach Korpus, sein, dass man
bei der Suche nach «Himmel» auf die Ergebnisse «blau»,
«grau» oder «Erde» stösst, da sie in den Texten des
Korpus überproportional oft miteinander in Verbindung
auftraten. Weiter kann zum Beispiel auch die Bildung
von Zeitformen neuer auftretender Verben wie zum
Beispiel «downloaden» untersucht werden. Mit einer
einfachen Korpusanalyse von zum Beispiel dem Deutschen
Referenzkorpus lässt sich so beantworten, ob nun in der
schriftlichen Gegenwart eher «downgeloadet» oder
«gedownloadet» verwendet wird. Nebst allerlei sprachwissenschaftlichen Fragen, wie die deutsche Sprache verwendet wurde und noch immer wird, kann sich auch die Literaturwissenschaft solche Techniken zu Nutze machen. Beispielsweise können für stilistische Analysen, also Betrachtungen mit Blick auf den Stil eines Textkorpus, durch die Verteilung der Wortarten wichtige Hinweise auf die Textgattung oder gar den Autor beobachtet werden. So lassen sich zum Beispiel untersuchen welche Begriffe in welchen Teilen eines Romans besonders oft auftreten, ob die Sätze an inhaltlich spannenden Stellen länger werden oder, ob im Verlauf des Buches gegen sprachliche Regelmässigkeiten verstossen wird. Also alles Beobachtungen in quantitativer Hinsicht.

In diesem Beispiel wird unter anderem deutlich, dass im Werk «Die Marquise von O.» von Heinrich von Kleist «Marquise» der weitaus häufigste Begriff im Text ist. Ferner ist rechts zu beobachten in welchen inhaltlichen Abschnitten die Marquise besonders oft genannt wird und dass sie zum Beispiel im wechselseitigen Verhältnis zum «Grafen» auftritt. Daraus lassen sich wiederum inhaltliche Schlüsse ziehen.

Solche genauen Betrachtungen sind natürlich nicht nur für Nomen, Eigennamen und Titel möglich, sondern es lassen sich, gleich wie in der Korpuslinguistik, alle Wortarten gleichermassen untersuchen.

Bis jetzt haben wir viele Möglichkeiten des Machine Speech Tagging, POS-Tagging und von digitalen Hilfsmitteln der Computerlinguistik gesehen. Diskutiert in den restlichen Minuten in Dreiergruppen:

- In welchen Teilen der Arbeit ist der Mensch dem Computer überlegen? Welche Lücken könnte die Technik noch haben?
- Können mit solchen Hilfsmitteln alle Sprachen, Personengruppen, etc. gleichermassen untersucht und berücksichtigt werden? Wenn nein, wieso nicht? Was müsste man daran ändern?

Aufgabe 2: Diskussion

Chancen und Fehler

- Es ist noch nicht möglich, Dialekte maschinell korrekt zu taggen. Daher muss der Dialekt normalisiert werden, um ihn untersuchen zu können. Auf diese Weise geht die sprachliche Variation verloren oder wird nicht dargestellt. - Aufgrund der unterschiedlichen Tagsets und Systeme fehlt es an Universalität und damit an Vergleichbarkeit. - Problem: Um mit Sprache arbeiten zu können, muss ein Tagset vorhanden sein. Dialektale oder sprachliche Minderheiten werden auf diese Weise nicht oder nicht alltagsnah analysiert.

Abschliessende Gedanken für diese Lektion

Das POS-Tagging bietet uns die Grundlage für alle Formen von maschinellem Verständnis von technischen Hilfsmitteln, wie z.B. KI.

Wie könnte POS-Tagging weiterhin zur Weiterentwicklung von Sprachverarbeitungstechnologien beitragen, und welche Potenziale siehst du für zukünftige Anwendungen in diesem Bereich?

Weitere Lektionen

TEXTE

Chiche, A., & Yitagesu, B. (2022). Part of speech tagging. a systematic review of deep learning and machine learning approaches. J Big Data 9. https://doi.org/10.1186/s40537-022-00561-y

Imo, Wolfgang (2016). Grammatik. Eine Einführung. J.B. Metzler.

Pittner, K., & Berman, J. (2021). Deutsche Syntax. Ein Arbeitsbuch. 7., überarbeitete und erweiterte Auflage. Narr.

Stückler, L. (2022). Empirische Methoden der Sprachwissenschaft, Vorlesung Universität Bern.

ILLUSTRATIONEN

Art-generator (2023). https://hotpot.ai/art-generator

Digital Humanities (2022). ISDT. Italian Stanford Dependency Treebank. https://dh.fbk.eu/research/tint/

Rademaker, A., Chalub, F., Real, L., Freitas, C., Bick, E., & de Paiva, V.C. (2017). Universal Dependencies for Portuguese. International Conference on Dependency Linguistics. https://www.semanticscholar.org/paper/-Universal-Dependencies-for-Portuguese-Rademaker-Chalub/703a1e207c47436dd08b6524b68ccb5267aee7d3

Stückler, L. (2022). Empirische Methoden der Sprachwissenschaft, Vorlesung Universität Bern

van der Aa, Han. (2017). Comparing and Aligning Process Representations. https://www.researchgate.net/-figure/4-Overview-of-the-Penn-Treebank-tagset-from-135-p131_tbl3_320858849

Wolf, R. (2023). voyant-tools.org

UNIT 2: VIOLATION OF MAXIMS

Lektion 1: Machine Speech Tagging

Schlüssel-
konzepte

EINHEIT 1: POS-TAGGING - SPRACHE ENTSCHLÜSSELN

Aufgabe 1: Wortarten zuordnen

Übe deine Wortarten-Kenntnisse im POS-Tagging

EINHEIT 2: KORPUSLINGUISTIK

Aufgabe 2: Diskussion

Chancen und Fehler

Abschliessende Gedanken für diese Lektion

Verwendete Quellen

Lektion 1: Machine Speech Tagging

Schlüssel- konzepte

EINHEIT 1: POS-TAGGING - SPRACHE ENTSCHLÜSSELN

Aufgabe 1: Wortarten zuordnen

Übe deine Wortarten-Kenntnisse im POS-Tagging

EINHEIT 2: KORPUSLINGUISTIK

Aufgabe 2: Diskussion

Chancen und Fehler

Abschliessende Gedanken für diese Lektion

Verwendete Quellen

Schlüssel-
konzepte