Bases de datos de secuencias de adn y proteínas




descargar 32.23 Kb.
títuloBases de datos de secuencias de adn y proteínas
fecha de publicación25.01.2016
tamaño32.23 Kb.
tipoDocumentos
b.se-todo.com > Biología > Documentos
ANÁLISIS GENÉTICO MOLECULAR

Bases de datos de secuencias de ADN y proteínas
Las técnicas de análisis genético han sufrido una evolución muy rápida en los últimos años, habiendo pasado de ser manuales, lentas, costosas y producir relativamente poca información, a ser automáticas, cada vez más rápidas y baratas y producir cantidades enormes de información. Con las tecnologías de secuenciación masiva, por ejemplo, se pueden obtener secuencias de genomas completos en poco tiempo. El almacenamiento, tratamiento y análisis de toda esa información, requieren la utilización de herramientas computacionales rápidas y potentes. La bioinformática es la disciplina encargada de elaborar las herramientas necesarias para ello, así como la utilización de esas herramientas para llevar a cabo los análisis que, al final, derivan en conocimiento biológico. Las herramientas bioinformáticas pueden clasificarse como herramientas de almacenamiento y recuperación de la información (bases de datos) y programas de manipulación y análisis de dicha información.
En lo que se refiere al análisis de secuencias de ADN o proteínas, los investigadores disponen actualmente de bases de datos donde se almacenan estas secuencias además de sus variantes, secuencias homólogas, y una gran cantidad de información sobre su localización cromosómica, propiedades, expresión, función, relaciones filogenéticas, etc. Cada vez que un grupo de investigación identifica una secuencia, o genoma, las sube a la base de datos y, subir secuencias a las bases de datos es un requisito para la publicación en revistas científicas de los hallazgos relacionados con dicha secuencia. En ocasiones, la enorme logística requerida para construir y mantener una base de datos depende de proyectos científicos individuales (cuando se trata de bases de datos orientadas hacia un organismo específico) o de un esfuerzo gubernamental o incluso intergubernamental (como es el caso de las bases de datos generales con más uso).

Ejemplos del primer caso incluyen las bases de datos sobre los organismos modelo:


Entre las bases de datos generales, las más relevantes son:

  • The ADN DataBank of Japan (DDBJ, http://www.ddbj.nig.ac.jp/index-e.html)

  • The European Molecular Biology Laboratory (EMBL, http://www.embl.de/)

  • The European Nucleotide Archive (http://www.ebi.ac.uk/ena/)

  • GenBank, una base de datos del estadounidense The National Center for Biotechnology Information (http://www.ncbi.nlm.nih.gov/genbank/).





Figura 1. Base de datos de The National Center for Biotechnology Information
Las bases de datos también dependen de algoritmos (programas informáticos) que permiten la automatización del proceso de obtención, almacenaje, organización y eficiente presentación y accesibilidad de su contenido. Otros algoritmos, integrados en las bases de datos, permiten el análisis de las secuencias de interés y su comparación con otras (ejemplos de estos son los famosos programas de alineamiento y comparación de secuencias Clustal y Blast).

Identificación y formato de las secuencias de nucleótidos y aminoácidos en las bases de datos

Para conseguir una secuencia desde una base de datos se puede recurrir a 4 tipos de búsquedas. La secuencia se puede encontrar utilizando el nombre del gen y organismo correspondiente (o bien con el nombre del gen y luego seleccionando el organismo que nos interesa); la Figura 3 muestra el resultado de la búsqueda en el directorio de genes de la base de datos NCBI de la secuencia de ADN ribosomal 5S de maíz. Sin embargo, las secuencias en las bases de datos están catalogadas y etiquetadas con un número de acceso y un identificador únicos, y unas etiquetas informativas sobre su origen y otras más características (véase formatos de secuencias). Por ejemplo, se desea conocer la secuencia nucleotídica del ADN ribosomal 5S del maíz. Dicha secuencia puede obtenerse buscando en el directorio de genes de GenBank por el número de acceso (para este caso, AF242647), o bien colocando en la barra de búsqueda “zea mays 5s” (Figura 2).


Figura 2. Búsqueda de secuencias de genes ribosomales en maíz
Una vez conseguida, la secuencia puede estar presentada en un formato u otro dependiendo de la base de datos de la que se obtengan; aquí introduciremos los tres formatos más utilizados. Se trata de los formatos “europeo” EMBL, el “estadounidense”

GenBank (ambos incluyen información y varias etiquetas identificadoras de la secuencia y de su procedencia) y el “sencillo y universal” fasta que puede no incluir más que un encabezamiento con el nombre de la secuencia.
Como hemos mencionado antes, el formato fasta es el más sencillo ya que incluye solo una parte comentario, o título; cuyo inicio está señalado por el símbolo “>”, y que suele ser el nombre de la secuencia, su procedencia, numero de acceso a la base de datos, seguido por un salto de línea y la secuencia de nucleótidos o aminoácidos que suele estar presentada en líneas de 80 o 120 residuos, aunque, aparte del primer salto de línea entre el título y la secuencia, el formato ignora espacios y acepta secuencias en forma de residuos continuos sin espacio o salto de línea. El fin de la secuencia es simplemente el último carácter (residuo) de la misma (véase el ejemplo que sigue). Al ser tan sencillo, el formato fasta es el formato base requerido por la gran mayoría de programas y algoritmos de análisis de secuencias y, por lo tanto, el más usado por los investigadores a la hora de manejar secuencias (alinearlas, hacer arboles filogenéticos, hacer búsquedas blast, etc.). El fichero fasta puede ser un fichero de texto simple o tener una de las extensiones “.fas” o “.fasta”. Un fichero con secuencias fasta puede tener una o varias secuencias cada una con su línea identificativa (que empieza por “>”). En el ejemplo del maíz:
>gi|9246905|gb|AF242647.1|AF242647 Zea mays variety Sweet Corn 5S ribosomal RNA gene, partial sequence; intergenic spacer, complete sequence; and 5S ribosomal RNA gene, partial sequence
TGGGAAGTCCTCGTGTTGCATTCCTTTTTTTTGGTTTTATTTTTGTTTGTTTTTCGAACACCAAACCATA

GTAAAAATGGGTGACCGTTCTCGTGTTAAATTACCTTTTATTTGTTTTAAGGGGCGTTTTTTGGGTACTT

TGTGCGGAGGAAGGATGTCCAGTGCCGTGGGCGAGCCGAGCACGGAGGTGTGGGCATAAGAGGAAGGAGG

ACGCAGGATATGACGGATGCGATCATACCAGCACTAC

GenBank

GenBank es la base de datos de secuencias genéticas de los National Institutes of Health (NIH) de Estados Unidos, una colección anotada de todas las secuencias de ADN disponibles públicamente (Nucleic Acids Research, 2008 Jan; 36 (Database issue): D25-30). La base de datos está alojada en los servidores del CentroNacional Para la Información Biotecnológica (The National Center for Biotechnology Information) en Estados Unidos (Figura 3).


Figura 3. Página web de acceso a GenBank
Debajo del menú principal horizontal, hay un menú desplegable, en el que se puede escoger la base de datos a utilizar (Figura 4), junto con una caja de texto seguida de un botón Search. Para realizar una búsqueda, seleccionamos primero la base de datos a utilizar (Nucleotide para ADN, Protein para proteínas, PubMed para bibliografía, etc.) y después introducimos una cadena de búsqueda en el cuadro de texto; finalmente, clickeamos en el botón Search.


Figura 4. Inicio de búsqueda en GenBank

Como ejemplo, si quisiéramos buscar la secuencia del gen que codifica para el factor de coagulación VIII humano, escogeríamos la base de datos de nucleótidos y escribiríamos Homo sapiens coagulation factor VIII gene en la caja de texto. El resultado de esa búsqueda se muestra en la Figura 5.


Figura 5. Resultados de una búsqueda en GenBank
Como se observa, se han obtenido coincidencias de la cadena de búsqueda con 5 registros de la base de datos. Para cada uno de los resultados, se muestra el nombre de la secuencia enlazado (en azul y subrayado) al registro en la base de datos, el tipo (ADN o ARN) de secuencia y su longitud, el número de acceso (Accession number) del registro en la base de datos (que lo identifica de forma única, y enlaces a la secuencia en los formatos GenBank y FASTA, así como a un navegador gráfico de secuencias y un listado de secuencias relacionadas. Clickeando en el enlace con el nombre de la secuencia accedemos a la información almacenada en el registro correspondiente, que está estructurada en diferentes campos de información (Figura 6).


Figura 6. Registro de una secuencia de ADN almacenada en formato GenBank
Algunos campos relevantes del formato GenBank son los siguientes:

Locus, Contiene un identificador (no necesariamente único) de la secuencia, así como su longitud (1319 pares de bases en el ejemplo), el tipo de secuencia (ADN lineal) y la fecha de su publicación en la base de datos.

Definition, Contiene información más detallada acerca de la secuencia almacenada en ese registro.

Accession, Es el número de acceso de la secuencia en la base de datos, que la identifica de forma inequívoca.

Source, Son campos que contienen información acerca del origen de la secuencia almacenada, la especie a la que pertenece y su clasificación taxonómica.

Reference, Son campos que contienen referencias bibliográficas sobre la secuencia, su publicación en revistas o bases de datos científicas, etc.

Features, Contienen la anotación de la secuencia, que describe qué está contenido concretamente en las distintas posiciones de la secuencia. En el caso del ejemplo en la figura 8, el gen que codifica para el factor VIII de coagulación en humanos.

Origin, Es el último campo del registro, que almacena la secuencia de nucleótidos. El final de registro viene marcado por los caracteres “//” situados en una línea nueva.

El formato FASTA (se puede ver clickeando en el enlace correspondiente en la parte de arriba de la página, clickeando en Display settings) es mucho más sencillo. Consiste en una única línea de anotación, precedida por el símbolo “>”, seguida de la secuencia en la línea siguiente (Figura 7).


Figura 7. Secuencia del factor de coagulación VIII en formato FASTA
La búsqueda de una secuencia de aminoácidos se realiza en GenBank de forma análoga, escogiendo la base de datos de proteínas en el menú desplegable y tecleando la cadena de búsqueda en la caja de texto. Se puede ver un ejemplo en la Figura 8, que muestra el registro correspondiente a la proteína codificada por el gen del ejemplo anterior, es decir, el factor VIII de coagulación en el hombre.



Figura 8. Registro de una secuencia de proteína almacenada en formato GenBank
Rastreo de bases de datos

Además de buscar secuencias de ADN o proteínas por su nombre, especie, etc., podemos estar interesados en buscar secuencias que presenten similitud (¿homología?) con una secuencia problema dado (Figura 9), es decir, lo que se conoce como rastrear bases de datos.
MAVMAPRTLV LLLSGALALT QTWAGSHSMR YFSTSVSRPG RGEPRFIAVG YVDDTQFVRF

DSDAASQRME PRAPWIEQEG PEYWDRNTRN VKAHSQTDRV DLGTLRGYYN QSEDGSHTIQ

RMYGCDVGSD GRFLRGYQQD AYDGKDYIAL NEDLRSWTAA DMAAEITKRK WEAAHFAEQL

RAYLEGTCVE WLRRHLENGK ETLQRTDAPK THMTHHAVSD HEAILRCWAL SFYPAEITLT

WQRDGEDQTQ DTELVETRPA GDGTFQKWAA VVVPSGQEQR YTCHVQHEGL PEPLTLRWEP

SSQPTIPIVG IIAGLVLFGA VIAGAVVAAV RWRRKSSDRK GGSYSQAASS DSAQGSDVSL

TACKV

Figura 9. Secuencia de una proteína anónima
Los algoritmos de rastreo de bases de datos más conocidos son FASTA y BLAST, implementados por los programas FASTA, BLASTn (ADN) y BLASTp (proteínas). Vamos a rastrear las bases de datos de proteínas con la secuencia de ejemplo de la Figura 9 utilizando el programa BLASTp (Figura 10). En el interfaz gráfico del programa, encontramos una caja de texto donde podemos pegar la secuencia problema, así como un botón Seleccionar archivo (Choose File) que nos permite escoger un fichero que contenga la secuencia problema en nuestro ordenador. Más abajo encontramos el botón Blast para la ejecución del rastreo.


Figura 10: Página de acceso a BLASTp
El resultado de un rastreo con BLASTp tiene tres partes, un resumen gráfico interactivo (Figura 11), un resultado detallado en forma de tabla (Figura 12) y un listado de los alineamientos de las secuencias encontradas (Figura 13). Como puede comprobarse en todos ellos, la proteína problema era el antígeno de histocompatibilidad humano de clase I.


Figura 11. Resumen gráfico del resultado de un rastreo con BLASTp
La tabla que recoge los resultados (Figura 12) presenta en la primera columna el número de acceso de cada una de las secuencias de la base de datos que presentan similitud (encontradas mediante un algoritmo de alineamiento de secuencias) con la secuencia problema. El número de acceso es también un enlace al registro que almacena la secuencia en cada caso. La segunda columna contiene la descripción de la secuencia. Las siguientes presentan la puntuación del alineamiento, el porcentaje de superposición de las secuencias y, por último, el valor E de probabilidad, que representa la probabilidad de que la similitud entre la secuencia anónima problema y la encontrada en la base de datos sea al azar. Valores pequeños indican que el parecido no se debe al azar y, por tanto, las secuencias están relacionadas o, como en el caso de la primera secuencia obtenida (E = 0), son la misma secuencia.


Figura 12. Resultado detallado de un rastreo con BLASTp
Finalmente, aparecen los alineamientos de la secuencia problema con cada una de las secuencias obtenidas de la base de datos (Figura 13), en los que se pueden observar las secuencias completas y, entre ambas, la secuencia consenso. Es fácil observar las coincidencias y diferencias entre las secuencias alineadas.

Si se desea saber si la secuencia de nucleótidos con la cual ha realizado la primera búsqueda se corresponde con alguna proteína utilice BLASTx función a partir de la cual el programa traducirá la secuencia de nucleótidos que se ingrese y luego la comparará con la base de datos de proteínas



Figura 13. Alineamiento en un rastreo con BLASTp

similar:

Bases de datos de secuencias de adn y proteínas iconEn años recientes, la disponibilidad de las bases de datos y de las...

Bases de datos de secuencias de adn y proteínas iconTranscripcióN : etapa que se realiza en el núcleo donde se pasa de...

Bases de datos de secuencias de adn y proteínas icon4. El Adn nunca sale del núcleo hacia el citoplasma durante la síntesis...

Bases de datos de secuencias de adn y proteínas iconSíntesis de proteínas (ribosomas, adn y arn)

Bases de datos de secuencias de adn y proteínas iconTranscripción como el adn se encuentra en el núcleo y las proteínas...

Bases de datos de secuencias de adn y proteínas iconR: Es la cadena acido que contiene las bases genéticas, de cada ser...

Bases de datos de secuencias de adn y proteínas iconResumen El presente trabajo de investigación bibliográfica trata...

Bases de datos de secuencias de adn y proteínas iconLos científicos dicen que los datos de todo el mundo pueden caber...

Bases de datos de secuencias de adn y proteínas iconSecuencias didáctica de administración de ventas

Bases de datos de secuencias de adn y proteínas iconLas proteínas son biomóleculas formadas básicamente por carbono,...




Todos los derechos reservados. Copyright © 2015
contactos
b.se-todo.com