8  Alineamiento de secuencias

En este módulo realizaremos alineamientos múltiples de secuencias utilizando diferentes herramientas. Evaluaremos los resultados y discutiremos su calidad.

8.1 🔧 Herramientas de alineamiento

8.1.1 🧰 Comparación de herramientas de alineamiento múltiple

Herramienta Usos principales Tamaño recomendado de secuencias Ventajas Desventajas Cuándo se recomienda usar
MAFFT Proteínas, ADN/ARN; grandes datasets Pequeño a muy grande Rápido, preciso, buena gestión de gaps; varios algoritmos (FFT-NS, L-INS-i, etc.) Puede requerir más memoria con algoritmos más precisos Recomendado para la mayoría de alineamientos, especialmente si se busca equilibrio entre velocidad y calidad
Clustal Omega Proteínas; alineamientos generales Pequeño a grande Buen rendimiento; interfaz web amigable; genera árboles guía Menos preciso que MAFFT en regiones con alta variabilidad Ideal para análisis rápidos o integrados en flujos automatizados
MUSCLE Proteínas, ADN; evolución y estructura Pequeño a mediano Precisión alta; buena opción para árboles filogenéticos Más lento que MAFFT y Clustal con muchos datos Recomendado cuando se busca precisión en datasets moderados o para árboles confiables
T-Coffee Alineamiento estructural o guiado Pequeño Integra múltiples fuentes (estructura, perfiles, etc.); muy preciso Muy lento; no apto para grandes datasets Para alineamientos donde se desea integrar información estructural o validar calidad
ProbCons Alineamiento de proteínas con alta precisión Muy pequeño Basado en modelos probabilísticos; muy preciso Extremadamente lento, descontinuado Casos de validación o comparación con otros alineamientos
Kalign ADN, ARN, proteínas Mediano a grande Muy rápido; buena precisión general Menos popular, opciones limitadas Análisis preliminares o en pipelines donde la velocidad es crítica
Dialign Alineamiento por regiones conservadas Pequeño a mediano Alinea sin penalizar gaps globales; útil con secuencias muy divergentes Menos efectivo en alineamientos globales Cuando las secuencias son muy divergentes y los métodos estándar fallan

🔎 Recomendaciones prácticas

  • Si tienes muchas secuencias (>100) o largas, comienza con MAFFT (FFT-NS-2).
  • Para resultados más precisos y si el número de secuencias es mediano (20-50), puedes usar MUSCLE o MAFFT L-INS-i.
  • Usa Clustal Omega si quieres un flujo rápido y simple o si estás integrando con herramientas como Jalview, MEGA o Galaxy.
  • Para publicaciones o validaciones, considera correr también con T-Coffee para comparar resultados.

8.1.2 Herramientas de prueba

Utilizaremos tres herramientas ampliamente utilizadas:

8.2 ▶️ Ejecutar alineamientos

# Con MAFFT
mafft all_protein.fasta > all_protein_mafft.aln
mafft all_cds.fasta > all_cds_mafft.aln

# Con Clustal Omega
clustalo -i all_protein.fasta -o all_protein_clustalo.aln
clustalo -i all_cds.fasta -o all_cds_clustalo.aln

# Con MUSCLE
muscle -align all_protein.fasta -output all_protein_muscle.aln
muscle -align all_cds.fasta -output all_cds_muscle.aln

8.3 🧪 Comparación y calidad del alineamiento

A la hora de evaluar los alineamientos, ten en cuenta:

  • Consistencia en regiones conservadas.
  • Gaps excesivos o inconsistentes pueden indicar errores.
  • MAFFT suele ser rápido y preciso; MUSCLE y Clustal Omega pueden producir resultados ligeramente distintos.
  • Se recomienda visualizar los alineamientos con Jalview para inspección manual.