5  BLAST en línea (web)

En este módulo exploraremos cómo utilizar las herramientas BLAST (Basic Local Alignment Search Tool) disponibles en línea en Uniprot y NCBI. Revisaremos los distintos programas BLAST, sus casos de uso más comunes, limitaciones y presentaremos ejemplos prácticos para obtener y organizar resultados.

5.1 Resumen de los programas BLAST

BLAST permite comparar una secuencia de consulta contra una base de datos para identificar regiones de similitud local. A continuación, se muestra un resumen de las variantes más utilizadas:

Programa BLAST Consulta (input) Base de datos (db) Traducción Uso típico
blastn ADN ADN No Comparar secuencias de nucleótidos (por ejemplo, genes o regiones génicas)
blastp Proteína Proteína No Buscar similitudes entre proteínas en una base de datos
blastx ADN Proteína Sí (ADN → 6 cuadros de lectura) Identificar posibles proteínas codificadas por una secuencia de ADN
tblastn Proteína ADN Sí (DB → proteínas) Localizar regiones codificantes en ensamblajes genómicos o transcriptómicos
tblastx ADN ADN Sí (ambos → proteínas) Comparar secuencias de ADN a nivel de proteínas traducidas

Consejo: La elección del programa BLAST adecuado es crucial. Por ejemplo, si tienes una secuencia génica no anotada y deseas saber qué proteínas podría codificar, utiliza blastx. Si tienes una secuencia de proteína y quieres ubicar su origen en el genoma, emplea tblastn.

5.2 Parámetros clave e interpretación de resultados

Al ejecutar cualquier búsqueda BLAST en línea, encontrarás parámetros y campos de salida como los siguientes:

  • Valor E (E-value): Número esperado de coincidencias de similar calidad que podrían ocurrir por azar. Valores E bajos indican coincidencias más significativas.
  • Porcentaje de identidad (Percent Identity): Porcentaje de residuos idénticos entre la consulta y la secuencia objetivo en la región alineada.
  • Cobertura de la consulta (Query Coverage): Proporción de la secuencia de consulta que se alinea con la secuencia objetivo.
  • Puntuación en bits (Bit Score): Puntuación normalizada que permite comparar resultados entre distintas búsquedas; puntuaciones más altas indican alineamientos de mejor calidad.
  • Número máximo de secuencias objetivo (Max Target Sequences): Cantidad máxima de hits que se mostrarán (por ejemplo, 100, 500 o 1000).
  • Opciones de filtrado (Filter Options): Filtros de regiones de baja complejidad (por ejemplo, DUST para nucleótidos, SEG para proteínas) que reducen coincidencias espurias, aunque podrían enmascarar regiones biológicamente relevantes.

Nota sobre limitaciones:
- Los servidores BLAST en línea suelen imponer límites en la longitud de la secuencia (por ejemplo, 10 000 nt para blastn) y en el número de consultas diarias.
- Los resultados pueden no incluir entradas de base de datos muy recientes si el servidor no se actualizó recientemente. Siempre verifica el campo “Base de datos actualizada” o “Database last updated” en la página de resultados.

5.3 Pasos prácticos

A continuación se describen ejemplos paso a paso para realizar búsquedas BLAST en Uniprot y NCBI. Veremos cómo enviar la secuencia, ajustar parámetros, interpretar los resultados y descargar los hits para análisis posteriores.

5.3.1 🔹 BLAST en Uniprot

  1. Acceder a la página de BLAST de Uniprot:

  2. Seleccionar el programa BLAST apropiado:

    • Selecciona “Protein BLAST” (blastp) si dispones de una secuencia de proteína.
    • Si tienes una secuencia de nucleótidos y quieres buscar contra una base de datos de proteínas, escoge “BLASTX”.
  3. Pegar la secuencia de consulta:

    • Copia y pega tu secuencia en formato FASTA en el cuadro de texto correspondiente.
  4. Configurar parámetros adicionales (opcional):

    • Ajusta el número máximo de secuencias objetivo (Max Target Sequences).
    • Aplica filtros de baja complejidad si lo consideras necesario.
    • Selecciona la base de datos deseada (por defecto suele ser “UniProtKB/Swiss-Prot”).
  5. Ejecutar la búsqueda y esperar resultados:

    • Haz clic en “Run BLAST” y espera a que se complete la búsqueda.
  6. Revisar e interpretar la salida:

    • Examina la tabla de resultados, prestando atención a los valores E, porcentajes de identidad y cobertura.
    • Selecciona los hits de interés.
  7. Descargar los hits en formato FASTA:

    • En la sección de resultados, elige la opción “Download” > “Hits (FASTA)” para guardar un archivo .fasta con las secuencias alineadas.

Renombramos los archivos descargados

mv ~/Downloads/uniprotkb_*.fasta uniprot_blastp.fasta
mv ~/Downloads/<table.tsv> uniprot_blastp.tsv

5.3.2 🔹 BLAST en NCBI

  1. Acceder a la página de BLAST de NCBI:

    • Dirígete a NCBI BLAST.
  2. Seleccionar el programa BLAST:

    • Para búsquedas de proteína contra proteína, elige “Protein BLAST” (blastp).
    • Para búsquedas de proteína contra bases de datos de nucleótidos traducidas, selecciona “tblastn”.
    • Para consultas de ADN contra bases de datos de proteínas, elige “blastx”.
  3. Pegar la secuencia de consulta:

    • Copia y pega tu secuencia (fasta) en el campo “Enter Query Sequence”.
  4. Ajustar parámetros opcionales:

    • Elige la base de datos apropiada (por ejemplo, “nr” para proteínas no redundantes o “refseq_rna” para transcriptomas).
    • Configura el número máximo de hits y filtros de complejidad.
  5. Ejecutar la búsqueda:

    • Haz clic en “BLAST” y espera a que se procesen los resultados.
  6. Interpretar los resultados:

    • En la pestaña “Descriptions” observarás los hits ordenados por el valor E.
    • En la pestaña “Alignments” podrás ver los alineamientos detallados.
  7. Descargar los resultados en formato FASTA:

    • Ve a “Download” (opción ubicada arriba a la derecha) y selecciona “FASTA” para guardar las secuencias de los hits en un archivo .fasta.

Renombramos los archivos descargados

# blastp
mv ~/Downloads/seqdump.txt ncbi_blastp.fasta
mv ~/Downloads/<table.csv> ncbi_blastp.csv

# tblastn
mv ~/Downloads/seqdump.txt ncbi_tblastn.fasta
mv ~/Downloads/<table.csv> ncbi_tblastn.csv

5.4 Recomendaciones finales

  1. Verificar la versión de la base de datos: Antes de confiar en los resultados, revisa la fecha de última actualización de la base de datos en cada servidor BLAST.
  2. Guardar metadatos de búsqueda: Anota en un archivo de texto o Excel los parámetros usados (tipo de BLAST, base de datos, filtros, valor E umbral) para futura referencia o reproducibilidad.
  3. Combinar resultados de Uniprot y NCBI: Si buscas coberturas más amplias, compara los hits obtenidos en ambas plataformas y filtra duplicados.
  4. Automatizar descargas: Para grandes volúmenes de secuencias, considera usar la línea de comandos de NCBI (NCBI BLAST+ packages) y scripts en bash o Python para automatizar búsquedas y descargas.