Volevo capire se una rivista storica può essere tradotta in dati senza perdere la sua anima. Ecco come ho usato il Machine Learning per mappare 1 milione di parole.
Da qualche anno, ho l’onore di operare come webmaster pro bono per finnegans.it, associazione e rivista capace di irradiare cultura e valori etici a chi vi resta connesso.
Il pensiero elaborato non incontra il favore degli algoritmi che dominano sulla visibilità dei contenuti del Web, sicché l’associazione si trova in conflitto con l’etica impostata da grandi operatori economici e continua a porsi e ri-porsi il problema della diffusione dei propri contenuti.
A questo scopo, ho condotto un’analisi statistica sui quasi 500 articoli del blog, lunghi in media ben 2276 parole.
Ecco ciò che è emerso.

Usando un metodo di linguistica computazionale, dopo aver fissato arbitrariamente a 6 il numero di gruppi, ho lanciato un programma che ha eseguito calcoli statistici e logici, ottenendo:
- per ciascuno dei circa 480 articoli di finnegans, a quale gruppo appartiene;
- una rappresentazione grafica dei gruppi;
- una tabella con la distanza di ciascun articolo rispetto al centroide del gruppo.
Teoricamente, tanto più due articoli sono vicini tra loro nella rappresentazione grafica, tanto più dovrebbero esserlo semanticamente. Uso il condizionale perché l’analisi è basata sulla sintassi, quindi su concreti artefatti (le parole) e non direttamente sui costrutti (i concetti). Inoltre, per non appesantire i calcoli nella produzione di quello che è un esempio, da ogni articolo sono stati prelevati i primi 500 circa termini.
In Allegato 1 c’è una breve spiegazione del metodo utilizzato. In particolare vi si trova la definizione di centroide di un raggruppamento.
In Allegato 2 troviamo i 6 raggruppamenti e, per ciascuno, i 5 articoli più vicini al corrispondente centroide.
Ho poi sottoposto la tabella dei cluster ad un Grande Modello Linguistico (Large Language Model o LLM): Google Gemini, chiedendo di proporre dei nomi ai vari mucchi o cluster. Ecco la risposta:
Sulla base dell’analisi dei titoli e della loro distribuzione nel grafico, ecco la “mappa mentale” di finnegans.it. I cluster non sono casuali, ma riflettono le diverse anime editoriali della rivista:
Sommario
Cluster 0: Saggistica, Arte e Critica Culturale (Rosso – 204 articoli)
È il “cuore” della rivista (l’isola più grande). Qui si concentrano i saggi lunghi (quelli che alzano la media a 2200 parole), le analisi filosofiche (Andrea Emo, Massimo Donà) e la critica d’arte (Canova, Mondrian). È il cluster dove la scrittura è più densa e accademica.
Temi chiave: Estetica, filosofia, storia dell’arte, saggistica d’approfondimento.
Cluster 1: Interviste, Conversazioni e Dialoghi (Arancione – 107 articoli)
L’isola nettamente separata sulla destra. Questa distanza semantica è dovuta alla struttura del testo: qui non c’è un monologo critico, ma un botta e risposta. Il linguaggio è più colloquiale e diretto.
Temi chiave: Incontri con autori, interviste a registi, conversazioni sul presente.
Cluster 2: Monografie e Ritratti d’Artista (Blu/Viola – 45 articoli)
Situato verso il centro, questo cluster raggruppa articoli focalizzati su singole figure. Spesso i titoli sono semplicemente il nome dell’artista o del poeta (Tobia Ravà, Pierluigi Cappello, Guido Sartorelli).
Temi chiave: Profili biografici, focus su singoli artisti contemporanei, cataloghi ragionati.
Cluster 3: Cronache Culturali, Festival e Reportage (Giallino – 80 articoli)
Un gruppo molto dinamico che si occupa del “fare cultura” nel presente. Include recensioni cinematografiche (Joker), cronache di festival (Luigi Nono) e reportage fotografici o di viaggio.
Temi chiave: Cinema, eventi musicali, mostre temporanee, reportage dal territorio.
Cluster 4: Poesia e Letteratura di Frontiera (Verde – 10 articoli)
È il cluster più piccolo e specifico (quella “macchia” verde vicino all’arancione). È quasi interamente dedicato a serie specifiche, come le traduzioni di poeti latino-americani o riflessioni sul paesaggio/lingua locale (es. il Cansiglio).
Temi chiave: Poesia straniera tradotta, letteratura veneta, nicchie letterarie.
Cluster 5: Omaggi, Memoria e Identità (Viola scuro – 30 articoli)
Questo cluster funge da “ponte” semantico. Raccoglie gli articoli celebrativi (omaggi a David Bowie, Dylan, o autori scomparsi) e le riflessioni sulla storia della rivista stessa (Finnegans come “presidio culturale”).
Temi chiave: In memoriam, anniversari, editoriali sull’identità della rivista.
Conclusioni per la tua strategia editoriale:
- L’Isola Rossa (Cluster 0) è la tua “autorità”: è ciò che rende il sito una fonte autorevole.
- L’Isola Arancione (Cluster 1) è il tuo “ponte”: è il contenuto più accessibile e dinamico.
- Gli Outliers (i punti isolati): Se vai a vedere quegli articoli, probabilmente scoprirai che sono quelli che hanno un linguaggio unico (magari più sperimentale o tecnico) che potrebbe meritare una nuova sezione o un nuovo filone editoriale.
Quale altro sito meriterebbe una mappatura semantica secondo voi?
Allegato 1: breve spiegazione delle tecniche utilizzate
Per trasformare i tuoi 500 articoli in quel grafico, abbiamo usato due pilastri della data science: uno serve a “leggere” (TF-IDF) e l’altro a “raggruppare” (K-Means).
Ecco come funzionano “sotto il cofano”.
1. TF-IDF: Dare un peso alle parole
Il TF-IDF (Term Frequency – Inverse Document Frequency) è un punteggio statistico che misura quanto una parola sia importante per un documento all’interno di una collezione (il tuo sito).
Si compone di due parti:
- TF (Term Frequency): Conta quante volte una parola appare in un singolo articolo. Più appare, più è importante.
- IDF (Inverse Document Frequency): Penalizza le parole troppo comuni. Se la parola “cultura” appare in tutti i 500 articoli, il suo valore IDF scende perché non aiuta a distinguere un articolo dall’altro.
Il risultato: Parole come “cinema” avranno un punteggio alto solo negli articoli che parlano davvero di cinema, mentre parole comuni come “articolo” o “fare” verranno ignorate. Questo trasforma il testo in un vettore di numeri (una riga di coordinate).
2. K-Means: Il “gioco delle calamite”
Una volta che ogni articolo è diventato una stringa di numeri grazie al TF-IDF, il K-Means interviene per creare i gruppi (i nostri K=6 cluster). Funziona così:
- Scelta dei Centroidi: l’algoritmo posiziona a caso nello spazio un certo numero K punti chiamati “centroidi” (nel nostro caso 6).
- Assegnazione: ogni articolo viene assegnato al centroide più vicino (come se ogni centroide fosse una calamita che attira i punti simili).
- Aggiornamento: il centroide si sposta esattamente nel “baricentro” dei punti che ha appena attirato.
- Ripetizione: il processo si ripete finché i centroidi non si muovono più e i gruppi sono stabili.
3. Perché il grafico è 2D? (Il ruolo di UMAP)
I vettori TF-IDF hanno migliaia di dimensioni (una per ogni parola del dizionario). Il cervello umano non può visualizzare 5000 dimensioni, quindi abbiamo usato UMAP.
UMAP è un algoritmo di “riduzione della dimensionalità”: prende la struttura complessa ad alta dimensione e la proietta su un piano (x e y) cercando di mantenere vicini i punti che erano vicini nell’iperspazio originale.
In sintesi:
- TF-IDF ha estratto il significato.
- K-Means ha deciso i confini dei gruppi.
- UMAP ha scattato la “fotografia” 2D
Allegato 2: tabella delle distanze degli articoli dai centroidi
Per brevità, riportiamo solo i 5 articoli più vicini ai 6 centroidi.
Per identificare i 5 articoli più rappresentativi di ogni cluster, abbiamo utilizzato la metrica della distanza euclidea dal centroide: più un articolo è vicino al centro del suo cluster, più il suo contenuto è “puro” e tipico di quel gruppo semantico.
Cluster 0: Saggistica, Filosofia e Critica d’Arte
Il cuore speculativo della rivista. Testi densi, focalizzati sull’analisi teorica e l’estetica.
| Titolo Articolo | Distanza dal Centroide |
| In Brasile si sta consumando un genocidio, la denuncia di Frei Betto | 0.1167 |
| Le lotte del Cormôr 1950 / Le canzoni del Cormôr 2020 | 0.1259 |
| Andrea Emo e il concetto di “contaminazione”, testo di Massimo Donà | 0.1307 |
| Conversazione sopra un cubo di cemento con Paolo Benvegnù | 0.1337 |
| CANOVA GLORIA TREVIGIANA. Commento critico di Annarosa Tonin | 0.1355 |
Cluster 1: Conversazioni e Interviste sul Presente
L’anima dialogica. Articoli costruiti sulla struttura dell’incontro e della testimonianza diretta.
| Titolo Articolo | Distanza dal Centroide |
| SEPEITHOS e AKRÓASIS: intervista a Leopoldo Siano | 0.1412 |
| Ester e il sovversivo, intervista a Pierluigi Pedretti | 0.1455 |
| I Pionieri di Pozzonovo. Commento critico di Luciano Morbiato | 0.1480 |
| POESIA E TRANSCULTURALITÀ. Testo di Monica Buffagni | 0.1512 |
| Quello che so di te, intervista a Nadia Terranova | 0.1533 |
Cluster 2: Monografie e Ritratti d’Autore
Focus su singoli protagonisti del panorama culturale contemporaneo, spesso artisti visivi.
| Titolo Articolo | Distanza dal Centroide |
| Proposte razionali: Guido Sartorelli, di Luigi Viola | 0.0988 |
| WOODS – strategie del depistaggio – di Giovanni Di Vincenzo | 0.1021 |
| Quando la gelosia diventa un folle apologo di classe | 0.1045 |
| Anatomia di un grande inquisitore, di F. M. Cannatà | 0.1112 |
| Claudio Ronco e Emanuela Vozza | 0.1134 |
Cluster 3: Cinema, Eventi e Reportage Culturali
La sezione “viva” dedicata alla ricezione delle opere contemporanee e ai festival.
| Titolo Articolo | Distanza dal Centroide |
| Le passioni visive di Marino Marini. Conv. con Barbara Cinelli | 0.1221 |
| NATALIA TOLEDO, «Sette fiori rossi» | 0.1245 |
| Leone d’oro a «Joker», di Cecilia Fortuna | 0.1288 |
| L’isola di Prometeo – Festival Luigi Nono alla Giudecca | 0.1301 |
| «Baj Ganjo», omaggio a Aleko Konstantinov | 0.1322 |
Cluster 4: Poesia e Letteratura di Frontiera
Nicchie letterarie specifiche, con forte focus sulla traduzione (Sud America) e il territorio.
| Titolo Articolo | Distanza dal Centroide |
| Parole calcinate. Poeti civili dell’America latina (Parte I) | 0.0877 |
| Hammershøi e i pittori del silenzio, di Anna Trevisan | 0.0899 |
| La Torre degli Anziani come dispositivo dello sguardo | 0.0921 |
| Il protagonismo dei luoghi nella letteratura veneta | 0.0945 |
| Festival Biblico di Treviso. I Salmi come cibo dell’anima | 0.0966 |
Cluster 5: Memoria, Omaggi e Identità Editoriale
Articoli commemorativi e riflessioni sul ruolo culturale della rivista Finnegans.
| Titolo Articolo | Distanza dal Centroide |
| YVES BONNEFOY – La musica delle parole, di Valerio Magrelli | 0.1055 |
| Ricordando Valentino Zeichen, di Duccio Trombadori | 0.1088 |
| DYLAN E IL NOBEL: il discorso del re | 0.1112 |
| David Bowie 1947-2016 | 0.1145 |
| FINNEGANS, UN PRESIDIO CULTURALE NEL DESERTO CHE AVANZA | 0.1177 |
Nota tecnica sulla Distanza
I valori di distanza sono normalizzati. Un valore più basso (es. Cluster 4 con 0.0877) indica un gruppo estremamente coeso e specifico, mentre valori leggermente più alti (es. Cluster 1 con 0.1412) indicano temi più variegati o linguaggi più eterogenei all’interno dello stesso gruppo.
Allegato 3: alcuni passaggi significativi nel codice
from sklearn.feature_extraction.text import TfidfVectorizer
# Trasformiamo il contenuto degli articoli in una matrice numerica
# Usiamo max_features per limitare il vocabolario alle 2000 parole più significative
vectorizer = TfidfVectorizer(max_features=2000, stop_words='italian')
X = vectorizer.fit_transform(df['post_content'])
# X ora non contiene più parole, ma punteggi TF-IDF:
# alti per parole rare e tematiche, bassi per congiunzioni e articoli.
Il precedente blocco mostra la potenza della libreria scikit-learn nel gestire la lingua italiana con poche righe di codice.
import umap
# Riduzione della dimensionalità: "schiacciamo" le 2000 dimensioni del
# vocabolario in sole 2 dimensioni (x, y) per renderle graficabili.
reducer = umap.UMAP(n_neighbors=15, min_dist=0.1, random_state=42)
embedding_2d = reducer.fit_transform(X_reduced)
# Ora ogni articolo ha una coordinata cartesiana precisa sulla mappa semantica
df['x'], df['y'] = embedding_2d[:, 0], embedding_2d[:, 1]
Questo blocco spiega come si passa dai dati grezzi alla visualizzazione ad “arcipelago” che hai mostrato nel post. È il ponte tra il codice e l’immagine.

