M11.1 Lesson 1 | HI-LING working page

Lezione 1: Annotazione automatica del linguaggio

Definizione:
Il Machine Speech Tagging è l'assegnazione automatica di tag linguistici al testo parlato e scritto per identificare le informazioni grammaticali. Ciò costituisce la base per la comprensione automatica di ausili tecnici, come l'intelligenza artificiale.

Concetto chiave

Sintassi, tipi di parole
Tagging POS: tag, tagset
Analisi del corpus

UNITÀ 1: TAGGING POS - DECODIFICARE IL LINGUAGGIO

La lezione inizia con un breve esercizio: l'insegnante inizia nominando una parola. In senso orario, ogni membro della classe aggiunge un'altra parola in modo da sviluppare continuamente una frase. Fate due o tre giri e memorizzate le frasi. Prima dell'esercizio, si può dare un argomento per la storia in cerchio, ad esempio la prossima gita scolastica, oppure favorire la creatività.

Come possiamo vedere, ha funzionato. Anche se tutt* di noi hanno contribuito solo in minima parte alla frase e non sapeva come sarebbe andata a finire, sono state create frasi coerenti che, probabilmente con molta fantasia, potremmo usare anche nella vita di tutti i giorni. Perché? Come facevamo a sapere quali parole sarebbero state adatte?
Quando impariamo una lingua, memorizziamo le regole grammaticali di base che ci servono per la comunicazione quotidiana. Tra le altre cose, questo include una comprensione di base della struttura della frase, vale a dire: quale parola posso collocare in quale punto della frase? E per questo, a sua volta, la suddivisione in tipi di parole è un prerequisito. Le opinioni in merito sono diverse, ma i seguenti otto tipi di parole sono particolarmente importanti per considerare la posizione in una frase:

Sostantivo: "parola-cosa" - albero, pane, nave
Verbo: "parola-fatto" - nuotare, mangiare, potere
Aggettivo: "parola-tipo", qualità - bello, rosso, affilato
Articolo/ pronome: "compagno" - il, uno / sostituisce - io, esso, tu, tuo
Avverbio: parola circostanziale - ieri, fortunatamente, qui
Congiunzione: congiunzione - e, ma, o
Preposizione: parola di relazione - nel/nella, su/sulla, dopo
Particella: parola funzionale, non inquadrabile - non, molto (bene), perché

I tipi di parola possono essere utilizzati per chiarire le regole di costruzione della frase e presentarle in forma generale: "Il cane morde". - Articolo, nome, verbo, aggettivo.

Nel cosiddetto POS tagging, Part-Of-Speech tagging, alle diverse parole di un testo vengono assegnati i tipi di parola appropriati secondo questo principio. Le parole vengono così dotate di "tag" che dicono qualcosa su di loro. A questo scopo, esistono varie raccolte di tag rilevanti - chiamate "tagset" - che differiscono a seconda della lingua o dell'obiettivo del tagging. In italiano, di solito si lavora con le "Italian Stanford Dependency Treebank"-Tagset. Questo specifica i singoli tipi di parole in modo ancora più preciso. L'aspetto è il seguente:

Da un lato, questa assegnazione ai tipi di parole può essere fatta manualmente, dall'altro esistono anche procedure di etichettatura automatizzate. In entrambi i casi, però, è importante che le parole siano sempre considerate nel contesto, perché in alcuni casi una parola può essere scritta allo stesso modo ma avere significati diversi. Ad esempio: "Gioco il gioco con mia amica". Se ci si attenesse strettamente al tagset e si ignorasse il contesto, si assegnerebbe il tag "sostantivo" a entrambi i "gioco". Nel contesto, tuttavia, è chiaro che gioco dovrebbe indicare il verbo e gioco il sostantivo.
Per esempio, affinché le intelligenze artificiali, cioè i sistemi informatici intelligenti, siano in grado di tradurre il linguaggio in modo autonomo o di generarlo da soli, è fondamentale una corretta etichettatura POS e la comprensione delle strutture generali delle frasi per poterle formare in modo grammaticalmente corretto. Queste informazioni possono essere utili anche per l'ottimizzazione dei motori di ricerca, ad esempio.

Compito 1: abbinare i tipi di parole

Esercitate la vostra cono-scenza dei tipi di parole nella marcatura POS.

È necessario insegnare i tipi di parole e il POS tagging. Provate voi stessi la frase
"Ieri la mucca marrone saltellava con disinvoltura per la classe e si è bloccata alla scrivania".
e abbinate ogni parola alla parte del discorso corretta (vedi sopra).
Ha funzionato? Poi andate su https://parts-of-speech.info/ e taggate la stessa frase sul sito. Confrontate le differenze con il vostro compito. Chi è stato più veloce? Avete assegnato parti del discorso diverse da quelle assegnate dal computer? Dove sorgono i problemi?

Ieri (Avverbo) la (Articolo) mucca (Nome) marrone (Aggettivo) saltellava (Verbo) con (Preposizione) disinvoltura (Nome) per (Preposizione) la (Articolo) classe (Nome) e (Congiunzione) si (Pronome) è (Verbo) bloccata (Verbo) alla (Preposizionie) scrivania (Nome).

UNITÀ 2: LINGUISTICA DEL CORPUS

Non solo le IA possono beneficiare dei vantaggi del POS tagging, ma anche la ricerca linguistica può trarne grande beneficio. Questi strumenti tecnici della linguistica computazionale aprono molte nuove possibilità per il sottocampo della "linguistica dei corpora". Come suggerisce il nome, la linguistica dei corpora si occupa di vari corpora - grandi raccolte di dati di linguaggio naturale. Può trattarsi, ad esempio, di un corpus di lingua giuridica, di un corpus di giornali in lingua italiana pubblicati negli Stati Uniti d'America tra il 1898 e il 1920 o di un corpus di messaggi di chat dell'anno 2000. Poiché tutti questi corpora comprendono enormi masse di dati, il lavoro di ricerca non può essere svolto da solo. Grazie a programmi informatici e, tra l'altro, al POS tagging, è tuttavia possibile lavorare con essi. L'analisi computerizzata può, ad esempio, rivelare le parole che vengono usate insieme più frequentemente della media
nei corpora. Ad esempio, nel corpus italiano
CORIS, in cui sono memorizzate 120 milioni di
parole della lingua scritta italiana corrente pro-
venienti da varie fonti come stampa, testi
giuridici e scientifici, è possibile analizzare la
frequenza con cui le parole "ieri" e "sera" sono
usate insieme in relazione alla stessa parola.
Oltre a tutti i tipi di domande linguistiche
sull'uso della lingua tedesca, anche gli studi
letterari possono avvalersi di queste tecniche.
Per esempio, per le analisi stilistiche, cioè per le
osservazioni sullo stile di un corpus testuale, si
possono osservare importanti indizi sul genere testuale o addirittura sull'autore attraverso la distribuzione dei tipi di parole. Ad esempio, è possibile esaminare quali termini ricorrano con particolare frequenza in quali parti di un romanzo, se le frasi si allungano nei punti in cui il contenuto è eccitante o se le regolarità linguistiche sono violate nel romanzo e se le regolarità linguistiche vengono violate nel corso del libro. In altre parole, tutte le osservazioni sono quantitative.

Questo esempio mostra, tra l'altro, che nell'opera di Dante Alighieri "La Divina Commedia: Inferno", "che" è di gran lunga la parola più usata nel testo. È inoltre possibile vedere sulla destra in quali sezioni del testo "che" è menzionato con particolare frequenza. Ciò consente di trarre conclusioni sul contenuto.

Osservazioni così precise sono ovviamente possibili con tutti i tipi di parole, compresi i nomi propri e i titoli.

Finora abbiamo visto molte opportunità per l'etichettatura automatica del discorso, l'etichettatura POS e gli strumenti digitali nella linguistica computazionale. Nei minuti rimanenti, discutete in gruppi di tre:

- In quali parti del lavoro gli esseri umani sono superiori ai computer? Quali lacune potrebbero ancora avere la tecnologia?
- Tutte le lingue, tutti i gruppi di persone, ecc. possono essere studiati e presi in considerazione allo stesso modo con questi strumenti? Se no, perché? Cosa dovrebbe essere cambiato?

Esercizio 2: Discussione

Opportunità ed errori

- Non è ancora possibile etichettare correttamente il dialetto con la macchina. Pertanto, il dialetto deve essere normalizzato per poter essere esaminato. In questo modo, la variazione linguistica viene persa o non rappresentata. - A causa dei diversi tagset e sistemi, manca l'universalità e quindi la comparabilità. - Problema: per lavorare con la lingua, deve esistere un tagset. Le minoranze dialettali o linguistiche non vengono analizzate in questo modo, o non in modo fedele alla vita quotidiana.

Pensiero finale per questa lezione

Il POS tagging ci fornisce la base per tutte le forme di comprensione automatica degli ausili tecnici, come l'IA.

In che modo il POS tagging potrebbe continuare a contribuire al progresso delle tecnologie di elaborazione del parlato e quale potenziale vede per le applicazioni future in questo settore?

Ulteriori lezioni

TESTI

Chiche, A., & Yitagesu, B. (2022). Part of speech tagging. a systematic review of deep learning and machine learning approaches. J Big Data 9. https://doi.org/10.1186/s40537-022-00561-y

Imo, Wolfgang (2016). Grammatik. Eine Einführung. J.B. Metzler.

Pittner, K., & Berman, J. (2021). Deutsche Syntax. Ein Arbeitsbuch. 7., überarbeitete und erweiterte Auflage. Narr.

Stückler, L. (2022). Empirische Methoden der Sprachwissenschaft, Vorlesung Universität Bern.

ILLUSTRAZIONI

Art-generator (2023). https://hotpot.ai/art-generator

Digital Humanities (2022). ISDT. Italian Stanford Dependency Treebank. https://dh.fbk.eu/research/tint/

Rademaker, A., Chalub, F., Real, L., Freitas, C., Bick, E., & de Paiva, V.C. (2017). Universal Dependencies for Portuguese. International Conference on Dependency Linguistics. https://www.semanticscholar.org/paper/-Universal-Dependencies-for-Portuguese-Rademaker-Chalub/703a1e207c47436dd08b6524b68ccb5267aee7d3

Stückler, L. (2022). Empirische Methoden der Sprachwissenschaft, Vorlesung Universität Bern

van der Aa, Han. (2017). Comparing and Aligning Process Representations. https://www.researchgate.net/-figure/4-Overview-of-the-Penn-Treebank-tagset-from-135-p131_tbl3_320858849

Wolf, R. (2023). voyant-tools.org

UNIT 2: VIOLATION OF MAXIMS