Dieci milioni di cellule in 2 ore: arriva da Trieste l’analisi che cambia l’oncologia

Due persone con la stessa diagnosi di tumore al polmone possono avere malattie profondamente diverse. Una è cresciuta in un cantiere navale, esposta a sostanze tossiche; l’altra ha passato la vita in una biblioteca. La genetica individuale, l’ambiente, la storia di ciascuno lasciano tracce nel modo in cui le cellule tumorali si comportano. Per questo la ricerca oncologica moderna non può permettersi di guardare pochi pazienti: ha bisogno di confrontare le cellule di migliaia di individui contemporaneamente, per distinguere quello che è davvero legato alla malattia da quello che è semplicemente la variabilità del singolo. Finora nessuno ci era riuscito davvero, non su quella scala.

Ma a Trieste un gruppo di ricercatori ha trovato la soluzione, pubblicata su Nature Communications. Il team, coordinato da Giulio Caravagna e Leonardo Egidi dell’Università di Trieste con il contributo di Area Science Park e della Sissa, ha sviluppato uno strumento chiamato Devil - Differential Expression with Variational Inference Learning - che affronta un nodo statistico aperto da trent’anni.

Il problema è questo: la statistica funziona quando i campioni che si confrontano sono indipendenti tra loro. Con la genomica a singola cellula, però, le unità di analisi non sono più i pazienti ma le singole cellule. E le centomila cellule tumorali estratte dallo stesso individuo non sono affatto indipendenti: condividono lo stesso Dna, lo stesso ambiente, la stessa storia clinica. Trattarle come se fossero campioni separati equivale a intervistare per un sondaggio cento volte la stessa persona e spacciarla per cento persone diverse. Il risultato sono falsi positivi, geni segnalati come significativi quando non lo sono, o segnali biologici reali che scompaiono nel rumore.

«Non è che non esisteva la matematica per farlo», spiega Caravagna. «Era difficile farlo in maniera efficiente. E quando hai a disposizione i dati di 250 mila pazienti e vorresti mettere tutto insieme, diventa importante saperlo fare correttamente e velocemente».

Devil risolve il problema riconoscendo la gerarchia nei dati: le cellule dello stesso paziente vengono trattate come dipendenti tra loro, mentre i pazienti restano indipendenti gli uni dagli altri. L’approccio bayesiano adottato non si limita a produrre una stima secca ma associa a ogni risultato una misura di affidabilità, permettendo di separare i segnali robusti da quelli incerti.

La novità non è solo concettuale. Grazie a un’architettura che sfrutta più unità grafiche in parallelo Devil è fino a quaranta volte più veloce dei metodi concorrenti e analizza dieci milioni di cellule in meno di due ore. Un risultato reso possibile dalla piattaforma di supercalcolo Orfeo di Area Science Park, potenziata con tre milioni di euro di fondi Pnrr.

«Non avremmo potuto ottenere questo risultato se non insieme: loro avevano una macchina ma noi avevamo un problema e un modello», dice Caravagna. Stefano Cozzini, direttore dell’Istituto ricerca e innovazione tecnologica di Area, parla di una combinazione tra hardware, software e quello che chiama «brainware»: le competenze dei dottorandi Giovanni Santacatterina e Niccolò Tosato, che hanno saputo tradurre le equazioni statistiche nel linguaggio delle megamacchine.

Lo strumento è già in uso su dataset oncologici con collaboratori clinici, ed è stato rilasciato gratuitamente come pacchetto open source a disposizione di laboratori e ospedali di tutto il mondo. L’oncologia si sta orientando verso i cosiddetti atlanti del cancro, studi con centinaia di pazienti e milioni di cellule: è esattamente lo scenario per cui Devil è stato costruito.