Tra il 1980 e il 2021 ha avuto numerose riedizioni, passando dagli Editori Riuniti a Laterza.
Sto parlando di un’opera di Tullio De Mauro che ha profondamente influenzato il mio approccio all’insegnamento: Guida all’uso delle parole. Il volume era costituito da numerose e illuminanti riflessioni sulle strategie necessarie per farsi capire, perseguendo la comprensione come un diritto costituzionale. E, soprattutto, alle pagine 149-183, regalava in appendice il vocabolario di base della lingua italiana (VdB), distinto in "fondamentale" (2000 parole), di "alto uso" (2937) e di "alta disponibilità" (1753), per un totale di 6690 voci, corredate di un’affermazione ai miei occhi potentissima:
"Se usiamo abbastanza le parole del vocabolario di base possiamo avere buone probabilità di essere capiti da chi ha fatto almeno la terza media. Se usiamo solo le parole del vocabolario fondamentale, possiamo sperare di essere capiti dal 66% della popolazione italiana cioè da quelle persone che hanno almeno la licenza elementare o titoli superiori, specie se le frasi non superano le 20 parole ciascuna. Più cresce in un discorso detto o in un testo scritto il numero di parole estranee al vocabolario di base, più si restringe il numero di persone che, oggi, in Italia, sono in grado di capirlo”. [1]
Il riferimento erano i dati di frequenza e d’uso delle parole forniti dal Lif, Lessico di frequenza della lingua italiana contemporanea , pubblicato da Ibm nel 1970 ed elaborato dal Centro universitario di calcolo elettronico di Pisa. Insieme al collega e amico Luigi Tremoloso decidemmo velleitariamente di inserire tutte le parole come correttore ortografico ausiliario del software di scrittura su cui a quei tempi formavamo i colleghi, Framework: ricordo ancora adesso le serate passate a coniugare per esteso i verbi e a inserirli nell’archivio del programma. Non arrivammo a nessun risultato concreto, ma fu grande la nostra soddisfazione quando, qualche anno dopo, fu rilasciata una riedizione del libro con allegato un software capace di scansionare i testi e di segnalare appartenenza o meno delle parole usate al vocabolario di base.
Se (come nel caso degli studi di De Mauro) il corpus – oggi però diremmo dataset - non solo è dichiarato e disponibile a tutti, ma tanto ampio da essere statisticamente rappresentativo, se ne possono estrarre elementi con valore sistemico e modelli di riferimento molto precisi ed efficaci. Tanto che si fondano sul VdB i protocolli per l’adattamento dei libri di testo e le pratiche di scrittura controllata messe in atto dalla rivista Due Parole e, per molti aspetti, da “Informazione facile”.
Nel 2007, poi, nell’ambito di un finanziamento ministeriale, fu rilasciato FacilTesto, software gratuito di aiuto all’adattamento scientifico dei libri di testo, purtroppo non più disponibile.
Del vocabolario di base, per altro, è uscita nel 2016 una versione rinnovata, liberamente scaricabile da internet:
“Il NVdB si fonda sullo spoglio elettronico (controllato manualmente) di testi lunghi complessivamente 18.843.459 occorrenze, raggruppati in sei categorie di estensione approssimativamente equivalente: stampa (quotidiani e settimanali), saggistica (saggi divulgativi, testi e manuali scolastici e universitari), testi letterari (narrativa, poesia), spettacolo (copioni cinematografici, teatro), comunicazione mediata dal computer (chat eccetera), registrazioni di parlato. I testi sono stati ripuliti mettendo da parte le occorrenze di nomi propri, numeri, simboli, ideogrammi e icone, e sono restate oggetto di analisi soltanto le parole. Le occorrenze di parole sono state lemmatizzate, cioè ricondotte a unità lessicali (vocaboli) presenti come lemmi nel Gradit e sono state lasciate da parte le parole di frequenza minima, al di sopra della quale sono stati individuati 33mila vocaboli”.
Trasparenza e conseguente fertilità culturale caratterizzano anche gli studi di Francesco Sabatini verso la classificazione dei testi, distinti in molto vincolanti, mediamente vincolanti e poco vincolanti. Anche in questo caso il dataset è aperto e i pattern individuati sono dichiarati e condivisi, centrati sulla relazione tra atteggiamento comunicativo degli autori e ricezione da parte dei lettori.
“A un estremo avremo testi composti con parole e costruzioni rigide, che non devono lasciare (se possibile) margini di incertezza nell’interpretazione, all’altro avremo testi in cui prevalgono parole e costruzioni elastiche, che si adattano a ricevere le interpretazioni e il senso che vuole attribuire loro il lettore”.
Questo approccio permette al presidente onorario dell’Accademia della Crusca di mettere a disposizione di tutti gli interessati non solo un “Quadro riassuntivo dei tipi di testo”, ma anche una “Tabella per l’analisi dei testi” che ne esplicita in modo estremamente articolato i tratti caratterizzanti e le possibili combinazioni, favorendo il riconoscimento e il confronto tra le strutture e quindi l’apprendimento e la ricerca.
Questo breve excursus – che volutamente non mette a fuoco anche il tema della linguistica computazionale o il distant reading di Franco Moretti, meno contigui all’ambito dell’istruzione – dimostra che l’analisi puntuale di insiemi di dati, l’individuazione di correlazioni e la riproduzione e la verifica dei modelli individuati non sono caratteristiche esclusive della cosiddetta intelligenza artificiale, ma piuttosto una prospettiva comune all’indagine scientifica che si voglia fondare sulle evidenze. E – soprattutto – che un importante valore aggiunto di quest’ultima è la condivisione dei campi culturali su cui agisce “a scatola aperta”, mentre l’automatizzazione tende a chiudere il senso e il percorso dei propri esiti “in to the black box”.
1. T. De Mauro, Guida all’uso delle parole, Editori Riuniti, 1980. Per l'edizione attuale, vedi Ed Laterza.