Trascrittomica: sviluppo, tecnologie e applicazioni

Nell’era post-genomica, la trascrittomica è uno dei campi di ricerca più sviluppati. Benchè questo termine sembri definire qualcosa di decisamente futuristico, risalgono agli anni ’90 i primissimi tentativi di studio del trascrittoma, ovvero: l’insieme completo dei trascritti di RNA in uno specifico tipo di cellula o tessuto in un certo stadio di sviluppo e/o in una specifica condizione fisiologica.

Secondo il dogma centrale della biologia, la trascrizione è il primo e fondamentale passaggio normativo dell’espressione genica. La trascrittomica, che è diventata un campo ispiratore della ricerca sulle scienze della vita, mira principalmente a catalogare tutte le specie di trascritti (compresi mRNA, ncRNA e piccoli RNA), a determinare la struttura trascrizionale dei geni (in termini di siti di partenza, estremità 5’ e 3’, schemi di splicing e altre modifiche post-trascrizionali) e a quantificare i mutevoli livelli di espressione di ogni trascrizione.

L’analisi del trascrittoma non solo aiuta a spiegare l’incoerenza tra numero di geni codificanti e numero di proteine prodotte, ma è anche il punto di partenza per lo studio della regolazione traslazionale. Recentemente, sono state scoperte un gran numero di specie di RNA trascritte da regioni genomiche non codificanti, i cui ruoli sono risultati importanti nella regolazione genica. Ad esempio, il 93% della parte di genoma umano tradotto è trascritto in RNA, ma di questo solo il 2% proviene dalle regioni codificanti.

Cenni storici e tecnologie antecedenti

Nel 1991 fu pubblicato su Science il primo tentativo di catturare – parzialmente – il trascrittoma umano, dove vennero riportate 609 sequenze di mRNA del cervello umano. Nel 2008 furono pubblicati altri due trascrittomi umani composti da milioni di sequenze derivate da trascritti che coprono circa 16.000 geni. Dopo il completamento del Progetto Genoma Umano e dopo lo studio di molti altri genomi di organismi modello e non, le sequenze del genoma sono state rese disponibili come vettori di informazioni genetiche.

Partendo dagli EST alla RT-qPCR…

Gli studi delle singole trascrizioni sono stati eseguiti diversi decenni prima che fossero disponibili gli approcci di trascrittomica. Alla fine degli anni ’70 alcuni mRNA del lepidottero Antheraea polyphemuse vennero raccolti in “librerie geniche“, convertiti in DNA complementare (cDNA) mediante trascrittasi inversa per scopi conservativi. Negli anni ’80, il sequenziamento Sanger a bassa velocità di trasmissione cominciò ad essere utilizzato per sequenziare singoli trascritti casuali da queste librerie, chiamate tag di sequenza espressa (ESTs).

Il metodo del sequenziamento Sanger è stato predominante fino all’avvento di metodi ad alto rendimento, come il sequenziamento per sintesi (Solexa / Illumina, San Diego, California). Gli EST sono diventati importanti negli anni ’90 come metodo efficiente per determinare il contenuto genico di un organismo senza l’obbligo di dover sequenziare l’intero genoma. Furono popolari anche la quantificazione delle singole trascrizioni mediante Northern blotting, matrici di membrana di nylon e PCR Retro trascrizionale quantificata mediante real-time (RT-qPCR), ma questi metodi sono risultati troppo laboriosi e capaci di catturare solamente una minuscola sottosezione del trascrittoma.

…alle tecnologie contemporanee: microarrays …

Le tecniche dominanti contemporanee, i microarrays e l’RNA-Seq, furono sviluppati a metà degli anni ’90 e negli anni 2000. Il primo articolo in cui si descrisse un esperimento con i microarray, che misurano l’abbondanza di un definito insieme di trascrizioni attraverso la loro ibridazione con una serie di sonde complementari, è stato pubblicato nel 1995.La tecnologia dei microarray ha permesso il dosaggio simultaneo di migliaia di trascritti per gene ad un costo notevolmente ridotto. Dagli anni 2000, sono stati prodotti una serie di microarray per coprire geni noti di organismi modello o economicamente rilevanti. I progressi nella progettazione e produzione di array hanno migliorato la specificità delle sonde e consentito la verifica di più geni su un singolo array. I progressi nel rilevamento della fluorescenza hanno inoltre aumentato la sensibilità e l’accuratezza della misurazione per basse quantità di trascrizioni.

…e RNA-Seq

L’RNA-Seq invece utilizza tecnologie deep-sequencing di recente sviluppo. In generale, una popolazione di RNA (totale o frazionato) viene convertita in una libreria di frammenti di cDNA con adattatori collegati a una o entrambe le estremità. Ciascuna molecola, con o senza amplificazione, viene quindi sequenziata con metodi high-throughput per ottenere sequenze brevi da un’estremità (sequenziamento single-end) o da entrambe le estremità (sequenziamento dell’estremità della coppia). Le letture sono in genere 30-400 bp, a seconda sulla tecnologia di sequenziamento del DNA utilizzata.

La tecnica è stata quindi fortemente influenzata dallo sviluppo di tecnologie di sequenziamento ad alto rendimento. A tal proposito, il sequenziamento massivo parallelo, MPSS (Massively parallel signature sequencing), è stato un primo esempio basato sulla generazione di sequenze da 16-20 bp attraverso una serie complessa di ibridazioni ed è stato utilizzato nel 2004 per convalidare l’espressione di 104 geni in Arabidopsis thaliana. Il primo lavoro di RNA-Seq è stato pubblicato nel 2006 con 105 trascritti sequenziati dalle cellule tumorali della prostata umana (LNCaP) utilizzando la tecnologia 454.

L’ RNA-Seq ha iniziato ad aumentare la propria popolarità dal 2008, quando le nuove tecnologie Solexa/Illumina hanno permesso di registrare 109 sequenze di trascrizione nel lievito (Schizosaccharomyces pombe), nell’uomo e nel topo. La resa di tali tecnologie è ora sufficiente alla quantificazione accurata di interi genomi umani.

Applicazioni: diagnostica e profilazione di malattie

Le strategie trascrittomiche sono state ampliamente applicate in diverse aree della ricerca biomedica, tra cui la diagnosi e la profilazione di malattie. Gli approcci RNA-Seq hanno permesso l’identificazione su larga scala dei siti di inizio della trascrizione, promotori alternativi e nuove alterazioni dello splicing. Questi elementi regolatori svolgono un ruolo fondamentale nelle malattie umane e, pertanto, la definizione di tali varianti è cruciale per l’interpretazione degli studi sull’associazione della malattia. L’RNA-Seq è capace, inoltre, di identificare polimorfismi a singolo nucleotide (SNP) associati alla malattia, l’espressione allele-specifica e la fusione di geni, contribuendo alla completa comprensione delle varianti che causano la malattia.

L’ RNA-Seq può inoltre fornire informazioni sulla trascrizione di retrotrasposoni endogeni che possono influenzare, tramite vari meccanismi epigenetici, la trascrizione di geni vicini. I retrotrasposoni sono elementi trasponibili che proliferano all’interno dei genomi eucariotici attraverso un processo che coinvolge la trascrizione inversa.  Allo stesso modo, è in rapida espansione la possibilità di utilizzare RNA-Seq per comprendere le malattie immunitarie grazie alla capacità di dissezionare le popolazioni di cellule immunitarie e di sequenziare i gruppi di recettori delle cellule T e delle cellule B dai pazienti.

Trascrittomi umani e patogeni

L’RNA-Seq dei patogeni umani è diventato un metodo consolidato per quantificare i cambiamenti di espressione genica, identificare nuovi fattori di virulenza, prevedere la resistenza agli antibiotici e svelare le interazioni immunitarie del patogeno ospite. Uno degli obiettivi principali di questa tecnologia è lo sviluppo di misure di controllo delle infezioni e di un trattamento mirato e individualizzato.

Risposte all’ambiente

La trascrittomica consente l’identificazione di geni e pathways che rispondono e contrastano gli stress ambientali biotici e abiotici. La natura “non mirata” della trascrittomica consente l’identificazione di nuove reti trascrizionali in sistemi complessi. Ad esempio, l’analisi comparativa di una serie di linee di ceci in diversi stadi di sviluppo ha identificato profili trascrizionali associati a stress di siccità e salinità, compresa l’identificazione del ruolo delle isoforme di trascritto di Apetala 2 e di Proteine ​​leganti l’elemento etilenico-reattivo (AP2-EREBP). Mentre un’indagine sull’espressione genica durante la formazione di biofilm da parte dell’agente patogeno fungino Candida albicans ha rivelato un insieme di geni coregolati fondamentali per lo stabilimento e il mantenimento dei biofilm stesso.

Il profilo trascrittomico fornisce inoltre informazioni cruciali sui meccanismi di resistenza ai farmaci. L’analisi di oltre un migliaio di campioni isolati da pazienti affetti da malaria di Plasmodium falciparum, protozoo unicellulare che causa la malaria nell’uomo, ha rivelato che la sovraregolazione della risposta a proteine malpiegate (UPR, Unfolded Protein Response) era associata alla resistenza all’ artemisinina del Sudest asiatico. L’artemisina è uno schizonticida ematico molto importante impiegato nella lotta alla malaria.

Annotazione della funzione genica

Tutte le tecniche di trascrizione sono state particolarmente utili per identificare le funzioni dei geni e individuare quelli responsabili di particolari fenotipi. La trascrittomica degli ecotipi di Arabidopsis Thaliana capaci di iperaccumulare metalli, ha correlato col fenotipo i geni coinvolti nell’assorbimento, nella tolleranza e nell’omeostasi dei metalli. I set di dati di RNA-Seq di diversi tessuti sono stati utilizzati per migliorare l’annotazione delle funzioni geniche in organismi commercialmente importanti (cetriolo) o specie animali minacciate (Koala).

RNA non codificante

Se da un lato la trascrittomica è più comunemente applicata al contenuto di mRNA della cellula è anche vero che le stesse tecniche sono ugualmente applicabili agli RNA non codificanti (ncRNA). Essi non sono tradotti in proteine ma svolgono un ruolo fondamentale nella traduzione proteica, nella replicazione del DNA, nello splicing dell’RNA e nella regolazione trascrizionale. Molti di questi ncRNA  sono capaci di influenzare diversi stati patologici, compreso il cancro, le malattie cardiovascolari e neurologiche.

La trascrittomica ha dunque rivoluzionato la comprensione su come i genomi vengano espressi . Negli ultimi trent’anni, le nuove tecnologie hanno ridefinito ciò che è possibile indagare. L’integrazione della trascrittomica con altre tecnologie “omiche” sta dando una visione sempre più profonda della complessità della vita cellulare. Il crollo dei costi degli studi di trascrittomica li ha resi disponibili anche in piccoli laboratori, mentre i consorzi di trascrittomica sono in grado di intraprendere esperimenti confrontando trascrittomi di migliaia di organismi, tessuti o condizioni ambientali. È innegabile che questa tendenza è destinata ad aumentare grazie al miglioramento delle tecnologie di sequenziamento.

Articoli correlati