Le banche dati sono collezioni di dati strutturati in tabelle, interconnessi e organizzati in maniera razionale. Sono tra i principali strumenti utilizzati in bioinformatica, in quanto contengono le informazioni derivate dagli esperimenti di laboratorio, quelli computazionali e dalla letteratura scientifica. Il primo tentativo di raccolta di dati biologici risale al 1965 quando Margaret Dayhoff (scienziata statunitense, considerata capostipite della Bioinformatica) organizzò le strutture di ben 65 proteine. Oggi, i dati sono miliardi e di vario genere, e si trovano online messi a disposizione di tutti.
Come è fatta una banca dati?
Una banca dati è innanzitutto costituita da entries, cioè le informazioni caratterizzanti l’oggetto del database e ritenute di interesse. Queste vengono poi definite dagli headers, ossia i campi di ricerca.
Ogni entry è definita dall’accession number, un codice unico e alfanumerico che permette di tracciare un’informazione e tutte le sue successive versioni. L’accession number definito al momento della sottomissione alla banca dati è detto primario.
I dati sono disponibili in più formati, i più importanti sono:
- Flat File: semplici file di testo formattati
- HTML / XML: file interattivi
- FASTA: file di testo non formattato. E’ molto semplice e in grado di essere letto da altri programmi e database
Quale banca dati scegliere?
Le banche dati si dividono in primarie, dedicate alla catalogazione di sequenze nucleotidiche, e secondarie, specializzate invece nella raccolta di informazioni sulle proteine (sia sequenze che strutture) e che derivano da quelle primarie.
Esempi di database biologici sono GenBank, EMBL e DDBJ; questi raccolgono sequenze nucleotidiche e sono rispettivamente le risorse di Stati Uniti, Europa e Giappone, mentre UniProt è la banca dati per la raccolta di sequenze proteiche. Questa al suo interno contiene due sezioni: SwissProt e TrEMBL, contenitori di sequenze annotate manualmente e automaticamente.
Esistono inoltre banche dati per la raccolta di strutture come PDB (Protein Data Bank) e ProSite, che contiene motivi funzionali.
La banca dati più famosa per la letteratura scientifica (soprattutto di tipo biomedico) invece è PubMed.
Come effettuare una ricerca
Per prima cosa, è utile evitare ricerche generiche poiché a causa dell’elevato flusso di dati generato è difficile trovare l’entry di nostro interesse. Si preferisce quindi utilizzare la ricerca avanzata, dove le keywords (parole chiave) vengono assegnate ai giusti header.
Contemporaneamente si utilizzano anche gli operatori Booleani AND, OR e NOT, tre operatori logici che seguono le regole dell’insiemistica per combinare le parole chiave da noi inserite. In particolare: AND cerca entry che contengano tutti i termini inseriti (intersezione logica), OR cerca risultati che contengano almeno una delle due parole chiave (somma logica) mentre NOT esclude uno dei due termini (differenza).
E’ inoltre possibile incrociare i risultati tra le varie ricerche, sia perché le queste scambiano autonomamente dati ogni giorno, sia perché all’interno dei vari siti sono presenti le cross-references, che indicano dove trovare informazioni relative allo stesso argomento all’interno di altre banche dati, favorendo quindi la loro integrazione.
 Applicazioni in bioinformatica e conclusioni
Con la nascita di nuove tecniche computazionali, stanno aumentando anche gli esperimenti high-throughput, cioè ad alto flusso di dati, che ovviamente vanno raccolti e conservati.
Avere queste informazioni a disposizione facilmente, quindi, permette di ridurre i tempi necessari per avere risposte sui fenomeni biologici e inoltre la loro accessibilità favorisce la cooperazione tra scienziati di tutto il mondo, permettendo ancora di più anche l’avanzamento della ricerca.