[si legge in 8 minuti]

Volevo capire se una rivista storica può essere tradotta in dati senza perdere la sua anima. Ecco come ho usato il Machine Learning per mappare 1 milione di parole.

Da qualche anno, ho l’onore di operare come webmaster pro bono per finnegans.it, associazione e rivista capace di irradiare cultura e valori etici a chi vi resta connesso.

Il pensiero elaborato non incontra il favore degli algoritmi che dominano sulla visibilità dei contenuti del Web, sicché l’associazione si trova in conflitto con l’etica impostata da grandi operatori economici e continua a porsi e ri-porsi il problema della diffusione dei propri contenuti.

A questo scopo, ho condotto un’analisi statistica sui quasi 500 articoli del blog, lunghi in media ben 2276 parole.

Ecco ciò che è emerso.

Mappa 2D dei raggruppamenti di articoli

Usando un metodo di linguistica computazionale, dopo aver fissato arbitrariamente a 6 il numero di gruppi, ho lanciato un programma che ha eseguito calcoli statistici e logici, ottenendo:

per ciascuno dei circa 480 articoli di finnegans, a quale gruppo appartiene;
una rappresentazione grafica dei gruppi;
una tabella con la distanza di ciascun articolo rispetto al centroide del gruppo.

Teoricamente, tanto più due articoli sono vicini tra loro nella rappresentazione grafica, tanto più dovrebbero esserlo semanticamente. Uso il condizionale perché l’analisi è basata sulla sintassi, quindi su concreti artefatti (le parole) e non direttamente sui costrutti (i concetti). Inoltre, per non appesantire i calcoli nella produzione di quello che è un esempio, da ogni articolo sono stati prelevati i primi 500 circa termini.

In Allegato 1 c’è una breve spiegazione del metodo utilizzato. In particolare vi si trova la definizione di centroide di un raggruppamento.

In Allegato 2 troviamo i 6 raggruppamenti e, per ciascuno, i 5 articoli più vicini al corrispondente centroide.

Ho poi sottoposto la tabella dei cluster ad un Grande Modello Linguistico (Large Language Model o LLM): Google Gemini, chiedendo di proporre dei nomi ai vari mucchi o cluster. Ecco la risposta:

Sulla base dell’analisi dei titoli e della loro distribuzione nel grafico, ecco la “mappa mentale” di finnegans.it. I cluster non sono casuali, ma riflettono le diverse anime editoriali della rivista:

Sommario

Cluster 0: Saggistica, Arte e Critica Culturale (Rosso – 204 articoli)
Cluster 1: Interviste, Conversazioni e Dialoghi (Arancione – 107 articoli)
Cluster 2: Monografie e Ritratti d’Artista (Blu/Viola – 45 articoli)
Cluster 3: Cronache Culturali, Festival e Reportage (Giallino – 80 articoli)
Cluster 4: Poesia e Letteratura di Frontiera (Verde – 10 articoli)
Cluster 5: Omaggi, Memoria e Identità (Viola scuro – 30 articoli)
Conclusioni per la tua strategia editoriale:
Allegato 1: breve spiegazione delle tecniche utilizzate
1. TF-IDF: Dare un peso alle parole
2. K-Means: Il “gioco delle calamite”
3. Perché il grafico è 2D? (Il ruolo di UMAP)
In sintesi:
Allegato 2: tabella delle distanze degli articoli dai centroidi
Cluster 0: Saggistica, Filosofia e Critica d’Arte
Cluster 1: Conversazioni e Interviste sul Presente
Cluster 2: Monografie e Ritratti d’Autore
Cluster 3: Cinema, Eventi e Reportage Culturali
Cluster 4: Poesia e Letteratura di Frontiera
Cluster 5: Memoria, Omaggi e Identità Editoriale
Nota tecnica sulla Distanza
Allegato 3: alcuni passaggi significativi nel codice

Cluster 0: Saggistica, Arte e Critica Culturale (Rosso – 204 articoli)

È il “cuore” della rivista (l’isola più grande). Qui si concentrano i saggi lunghi (quelli che alzano la media a 2200 parole), le analisi filosofiche (Andrea Emo, Massimo Donà) e la critica d’arte (Canova, Mondrian). È il cluster dove la scrittura è più densa e accademica.

Temi chiave: Estetica, filosofia, storia dell’arte, saggistica d’approfondimento.

Cluster 1: Interviste, Conversazioni e Dialoghi (Arancione – 107 articoli)

L’isola nettamente separata sulla destra. Questa distanza semantica è dovuta alla struttura del testo: qui non c’è un monologo critico, ma un botta e risposta. Il linguaggio è più colloquiale e diretto.

Temi chiave: Incontri con autori, interviste a registi, conversazioni sul presente.

Cluster 2: Monografie e Ritratti d’Artista (Blu/Viola – 45 articoli)

Situato verso il centro, questo cluster raggruppa articoli focalizzati su singole figure. Spesso i titoli sono semplicemente il nome dell’artista o del poeta (Tobia Ravà, Pierluigi Cappello, Guido Sartorelli).

Temi chiave: Profili biografici, focus su singoli artisti contemporanei, cataloghi ragionati.

Cluster 3: Cronache Culturali, Festival e Reportage (Giallino – 80 articoli)

Un gruppo molto dinamico che si occupa del “fare cultura” nel presente. Include recensioni cinematografiche (Joker), cronache di festival (Luigi Nono) e reportage fotografici o di viaggio.

Temi chiave: Cinema, eventi musicali, mostre temporanee, reportage dal territorio.

Cluster 4: Poesia e Letteratura di Frontiera (Verde – 10 articoli)

È il cluster più piccolo e specifico (quella “macchia” verde vicino all’arancione). È quasi interamente dedicato a serie specifiche, come le traduzioni di poeti latino-americani o riflessioni sul paesaggio/lingua locale (es. il Cansiglio).

Temi chiave: Poesia straniera tradotta, letteratura veneta, nicchie letterarie.

Cluster 5: Omaggi, Memoria e Identità (Viola scuro – 30 articoli)

Questo cluster funge da “ponte” semantico. Raccoglie gli articoli celebrativi (omaggi a David Bowie, Dylan, o autori scomparsi) e le riflessioni sulla storia della rivista stessa (Finnegans come “presidio culturale”).

Temi chiave: In memoriam, anniversari, editoriali sull’identità della rivista.

Conclusioni per la tua strategia editoriale:

L’Isola Rossa (Cluster 0) è la tua “autorità”: è ciò che rende il sito una fonte autorevole.

L’Isola Arancione (Cluster 1) è il tuo “ponte”: è il contenuto più accessibile e dinamico.

Gli Outliers (i punti isolati): Se vai a vedere quegli articoli, probabilmente scoprirai che sono quelli che hanno un linguaggio unico (magari più sperimentale o tecnico) che potrebbe meritare una nuova sezione o un nuovo filone editoriale.

Quale altro sito meriterebbe una mappatura semantica secondo voi?

CHIEDI UN’ANALISI

Allegato 1: breve spiegazione delle tecniche utilizzate

Per trasformare i tuoi 500 articoli in quel grafico, abbiamo usato due pilastri della data science: uno serve a “leggere” (TF-IDF) e l’altro a “raggruppare” (K-Means).

Ecco come funzionano “sotto il cofano”.

1. TF-IDF: Dare un peso alle parole

Il TF-IDF (Term Frequency – Inverse Document Frequency) è un punteggio statistico che misura quanto una parola sia importante per un documento all’interno di una collezione (il tuo sito).

Si compone di due parti:

TF (Term Frequency): Conta quante volte una parola appare in un singolo articolo. Più appare, più è importante.
IDF (Inverse Document Frequency): Penalizza le parole troppo comuni. Se la parola “cultura” appare in tutti i 500 articoli, il suo valore IDF scende perché non aiuta a distinguere un articolo dall’altro.

Il risultato: Parole come “cinema” avranno un punteggio alto solo negli articoli che parlano davvero di cinema, mentre parole comuni come “articolo” o “fare” verranno ignorate. Questo trasforma il testo in un vettore di numeri (una riga di coordinate).

2. K-Means: Il “gioco delle calamite”

Una volta che ogni articolo è diventato una stringa di numeri grazie al TF-IDF, il K-Means interviene per creare i gruppi (i nostri K=6 cluster). Funziona così:

Scelta dei Centroidi: l’algoritmo posiziona a caso nello spazio un certo numero K punti chiamati “centroidi” (nel nostro caso 6).
Assegnazione: ogni articolo viene assegnato al centroide più vicino (come se ogni centroide fosse una calamita che attira i punti simili).
Aggiornamento: il centroide si sposta esattamente nel “baricentro” dei punti che ha appena attirato.
Ripetizione: il processo si ripete finché i centroidi non si muovono più e i gruppi sono stabili.

3. Perché il grafico è 2D? (Il ruolo di UMAP)

I vettori TF-IDF hanno migliaia di dimensioni (una per ogni parola del dizionario). Il cervello umano non può visualizzare 5000 dimensioni, quindi abbiamo usato UMAP.

UMAP è un algoritmo di “riduzione della dimensionalità”: prende la struttura complessa ad alta dimensione e la proietta su un piano (x e y) cercando di mantenere vicini i punti che erano vicini nell’iperspazio originale.

In sintesi:

TF-IDF ha estratto il significato.
K-Means ha deciso i confini dei gruppi.
UMAP ha scattato la “fotografia” 2D

Allegato 2: tabella delle distanze degli articoli dai centroidi

Per brevità, riportiamo solo i 5 articoli più vicini ai 6 centroidi.

Per identificare i 5 articoli più rappresentativi di ogni cluster, abbiamo utilizzato la metrica della distanza euclidea dal centroide: più un articolo è vicino al centro del suo cluster, più il suo contenuto è “puro” e tipico di quel gruppo semantico.

Cluster 0: Saggistica, Filosofia e Critica d’Arte

Il cuore speculativo della rivista. Testi densi, focalizzati sull’analisi teorica e l’estetica.

Titolo Articolo	Distanza dal Centroide
In Brasile si sta consumando un genocidio, la denuncia di Frei Betto	0.1167
Le lotte del Cormôr 1950 / Le canzoni del Cormôr 2020	0.1259
Andrea Emo e il concetto di “contaminazione”, testo di Massimo Donà	0.1307
Conversazione sopra un cubo di cemento con Paolo Benvegnù	0.1337
CANOVA GLORIA TREVIGIANA. Commento critico di Annarosa Tonin	0.1355

Cluster 1: Conversazioni e Interviste sul Presente

L’anima dialogica. Articoli costruiti sulla struttura dell’incontro e della testimonianza diretta.

Titolo Articolo	Distanza dal Centroide
SEPEITHOS e AKRÓASIS: intervista a Leopoldo Siano	0.1412
Ester e il sovversivo, intervista a Pierluigi Pedretti	0.1455
I Pionieri di Pozzonovo. Commento critico di Luciano Morbiato	0.1480
POESIA E TRANSCULTURALITÀ. Testo di Monica Buffagni	0.1512
Quello che so di te, intervista a Nadia Terranova	0.1533

Cluster 2: Monografie e Ritratti d’Autore

Focus su singoli protagonisti del panorama culturale contemporaneo, spesso artisti visivi.

Titolo Articolo	Distanza dal Centroide
Proposte razionali: Guido Sartorelli, di Luigi Viola	0.0988
WOODS – strategie del depistaggio – di Giovanni Di Vincenzo	0.1021
Quando la gelosia diventa un folle apologo di classe	0.1045
Anatomia di un grande inquisitore, di F. M. Cannatà	0.1112
Claudio Ronco e Emanuela Vozza	0.1134

Cluster 3: Cinema, Eventi e Reportage Culturali

La sezione “viva” dedicata alla ricezione delle opere contemporanee e ai festival.

Titolo Articolo	Distanza dal Centroide
Le passioni visive di Marino Marini. Conv. con Barbara Cinelli	0.1221
NATALIA TOLEDO, «Sette fiori rossi»	0.1245
Leone d’oro a «Joker», di Cecilia Fortuna	0.1288
L’isola di Prometeo – Festival Luigi Nono alla Giudecca	0.1301
«Baj Ganjo», omaggio a Aleko Konstantinov	0.1322

Cluster 4: Poesia e Letteratura di Frontiera

Nicchie letterarie specifiche, con forte focus sulla traduzione (Sud America) e il territorio.

Titolo Articolo	Distanza dal Centroide
Parole calcinate. Poeti civili dell’America latina (Parte I)	0.0877
Hammershøi e i pittori del silenzio, di Anna Trevisan	0.0899
La Torre degli Anziani come dispositivo dello sguardo	0.0921
Il protagonismo dei luoghi nella letteratura veneta	0.0945
Festival Biblico di Treviso. I Salmi come cibo dell’anima	0.0966

Cluster 5: Memoria, Omaggi e Identità Editoriale

Articoli commemorativi e riflessioni sul ruolo culturale della rivista Finnegans.

Titolo Articolo	Distanza dal Centroide
YVES BONNEFOY – La musica delle parole, di Valerio Magrelli	0.1055
Ricordando Valentino Zeichen, di Duccio Trombadori	0.1088
DYLAN E IL NOBEL: il discorso del re	0.1112
David Bowie 1947-2016	0.1145
FINNEGANS, UN PRESIDIO CULTURALE NEL DESERTO CHE AVANZA	0.1177

Nota tecnica sulla Distanza

I valori di distanza sono normalizzati. Un valore più basso (es. Cluster 4 con 0.0877) indica un gruppo estremamente coeso e specifico, mentre valori leggermente più alti (es. Cluster 1 con 0.1412) indicano temi più variegati o linguaggi più eterogenei all’interno dello stesso gruppo.

Allegato 3: alcuni passaggi significativi nel codice

from sklearn.feature_extraction.text import TfidfVectorizer

# Trasformiamo il contenuto degli articoli in una matrice numerica
# Usiamo max_features per limitare il vocabolario alle 2000 parole più significative
vectorizer = TfidfVectorizer(max_features=2000, stop_words='italian')
X = vectorizer.fit_transform(df['post_content'])

# X ora non contiene più parole, ma punteggi TF-IDF: 
# alti per parole rare e tematiche, bassi per congiunzioni e articoli.

Il precedente blocco mostra la potenza della libreria scikit-learn nel gestire la lingua italiana con poche righe di codice.

import umap

# Riduzione della dimensionalità: "schiacciamo" le 2000 dimensioni del 
# vocabolario in sole 2 dimensioni (x, y) per renderle graficabili.
reducer = umap.UMAP(n_neighbors=15, min_dist=0.1, random_state=42)
embedding_2d = reducer.fit_transform(X_reduced)

# Ora ogni articolo ha una coordinata cartesiana precisa sulla mappa semantica
df['x'], df['y'] = embedding_2d[:, 0], embedding_2d[:, 1]

Questo blocco spiega come si passa dai dati grezzi alla visualizzazione ad “arcipelago” che hai mostrato nel post. È il ponte tra il codice e l’immagine.

Nicola Granà

Dalla Complessità IT alla Soluzione Logica.

Cosa dicono 500 articoli? Ho mappato il DNA semantico di Finnegans.it con Python

Cluster 0: Saggistica, Arte e Critica Culturale (Rosso – 204 articoli)

Cluster 1: Interviste, Conversazioni e Dialoghi (Arancione – 107 articoli)

Cluster 2: Monografie e Ritratti d’Artista (Blu/Viola – 45 articoli)

Cluster 3: Cronache Culturali, Festival e Reportage (Giallino – 80 articoli)

Cluster 4: Poesia e Letteratura di Frontiera (Verde – 10 articoli)

Cluster 5: Omaggi, Memoria e Identità (Viola scuro – 30 articoli)

Conclusioni per la tua strategia editoriale:

Allegato 1: breve spiegazione delle tecniche utilizzate

1. TF-IDF: Dare un peso alle parole

2. K-Means: Il “gioco delle calamite”

3. Perché il grafico è 2D? (Il ruolo di UMAP)

In sintesi:

Allegato 2: tabella delle distanze degli articoli dai centroidi

Cluster 0: Saggistica, Filosofia e Critica d’Arte

Cluster 1: Conversazioni e Interviste sul Presente

Cluster 2: Monografie e Ritratti d’Autore

Cluster 3: Cinema, Eventi e Reportage Culturali

Cluster 4: Poesia e Letteratura di Frontiera

Cluster 5: Memoria, Omaggi e Identità Editoriale

Nota tecnica sulla Distanza

Allegato 3: alcuni passaggi significativi nel codice

Altri articoli

Cosa dicono 500 articoli? Ho mappato il DNA semantico di Finnegans.it con Python

Come i System Integrator Possono Sopravvivere (e Prosperare) nell’Era dell’AI

IA Amichevole in Azienda: Concetti e Casi Reali

WhatsApp lancia la “Privacy Avanzata”: Ora potete scatenarvi (un po’ di più) nei gruppi

Cosa dicono 500 articoli? Ho mappato il DNA semantico di Finnegans.it con Python

Cluster 0: Saggistica, Arte e Critica Culturale (Rosso – 204 articoli)

Cluster 1: Interviste, Conversazioni e Dialoghi (Arancione – 107 articoli)

Cluster 2: Monografie e Ritratti d’Artista (Blu/Viola – 45 articoli)

Cluster 3: Cronache Culturali, Festival e Reportage (Giallino – 80 articoli)

Cluster 4: Poesia e Letteratura di Frontiera (Verde – 10 articoli)

Cluster 5: Omaggi, Memoria e Identità (Viola scuro – 30 articoli)

Conclusioni per la tua strategia editoriale:

Allegato 1: breve spiegazione delle tecniche utilizzate

1. TF-IDF: Dare un peso alle parole

2. K-Means: Il “gioco delle calamite”

3. Perché il grafico è 2D? (Il ruolo di UMAP)

In sintesi:

Allegato 2: tabella delle distanze degli articoli dai centroidi

Cluster 0: Saggistica, Filosofia e Critica d’Arte

Cluster 1: Conversazioni e Interviste sul Presente

Cluster 2: Monografie e Ritratti d’Autore

Cluster 3: Cinema, Eventi e Reportage Culturali

Cluster 4: Poesia e Letteratura di Frontiera

Cluster 5: Memoria, Omaggi e Identità Editoriale

Nota tecnica sulla Distanza

Allegato 3: alcuni passaggi significativi nel codice

Condividi:

Altri articoli

Cosa dicono 500 articoli? Ho mappato il DNA semantico di Finnegans.it con Python

Come i System Integrator Possono Sopravvivere (e Prosperare) nell’Era dell’AI

IA Amichevole in Azienda: Concetti e Casi Reali

WhatsApp lancia la “Privacy Avanzata”: Ora potete scatenarvi (un po’ di più) nei gruppi