Tavole statistiche

I primi 5000 lemmi in ordine di uso decrescente 1947-2021

Ciascun lemma è caratterizzato dalla frequenza assoluta (numero di occorrenze) con cui appare nel corpus dei cento romanzi, dalla dispersione (calcolata a partire dal numero di testi diversi in cui appare) e dall’indice d’uso, calcolato tenendo conto sia della frequenza sia della dispersione. I lemmi sono qui elencati in ordine di uso decrescente (cifre della prima colonna) e per ciascuno si indicano frequenza assoluta (seconda colonna) e dispersione (terza colonna).

Scarica la tavola

Tavole statistiche 1947-2006

Illustriamo qui sinteticamente le diverse statistiche elaborate sulla base della lemmatizzazione del corpus. Richiamiamo preliminarmente alcuni termini utilizzati in seguito:
  • forma-occorrenza (ingl. token) o semplicemente forma: qualunque parola nel senso informatico, cioè qualunque sequenza di caratteri alfanumerici (al massimo 26) compresa tra spazi bianchi o altri delimitatori (segni di interpunzione) che occorra nei testi;
  • forma-tipo (ingl. type): il tipo di forma-occorrenza cui si riconducono le diverse forme-occorrenze costituite dalla stessa sequenza di caratteri e occorrenti nei testi analizzati;
  • lemma (detto anche forma di citazione del vocabolo o, anche, lessema): la configurazione convenzionale che assume una voce del dizionario, al quale si riconducono (nelle lingue flessive come l'italiano) le diverse forme-tipo delle parti del discorso variabili e, ovviamente, le forme-tipo delle forme cosiddette invariabili (che possono anche conoscere, in realtà, variazione di tipo eufonico, come ad esempio o e od, e e ed ecc.; come di consueto il lemma ha la forma del singolare per i sostantivi, del singolare maschile per gli aggettivi, dell'infinito per i verbi;
  • lemmatizzazione: assegnazione delle forme-tipo (flesse o invariabili) a uno dei lemmi del dizionario;
  • polirematica: gruppo di parole (al massimo di 67 caratteri) che ha un significato unitario, non desumibile da quello delle forme che lo compongono, comune nell'uso corrente (veder rosso, essere al verde) e nei linguaggi tecnico-specialistici (motore a scoppio, particella elementare);
  • delimitatori: caratteri (generalmente segni di interpunzione) che, anche insieme allo spazio bianco, separano le diverse forme occorrenti in un testo;
  • categoria grammaticale: ciascuna delle classi morfologico-sintattiche in cui il dizionario e la grammatica ripartiscono gli elementi del discorso;
  • marca d’uso: informa sul grado di utilizzazione di un lessema (basso uso, alto uso, comune, ecc.) o sul particolare ambito d'uso (letterario, tecnico-specialistico ecc.);
  • forme frequenti: forme-tipo più spesso incontrabili in testi italiani (tipicamente articoli, preposizioni, congiunzioni, pronomi, avverbi), che normalmente interessano circa il 50% di tutte le forme-occorrenza presenti nei testi stessi. Per alleggerire la gestione del data base e soprattutto il compito dell’operatore della lemmatizzazione manuale, la lemmatizzazione delle forme frequenti è stata effettuata automaticamente dal programma, senza quindi coinvolgere l’operatore; nei casi in cui l’assegnazione automatica delle forme frequenti è tuttavia risultata non univoca, i lemmi individuati sono stati assegnati a una categoria grammaticale fittizia, denominata categoria zero o categoria multipla.

Scarica il testo completo delle Tavole Statistiche

Scarica le tavole


Elaborazione in corso...