7  Filtrado y organización de resultados

En este módulo filtraremos los mejores resultados de BLAST y organizaremos las secuencias para análisis posteriores, como alineamiento y filogenia.

7.1 🔍 Seleccionar los mejores hits

Después de realizar búsquedas en UniProt y NCBI, seleccionamos los primeros resultados (según el orden del output) para trabajar con un subconjunto representativo:

# De UniProt: tomar los 50 mejores resultados
seqkit head -n 50 uniprot_blast.fasta > uniprot_blast_50.fasta

# De NCBI: tomar los 20 mejores resultados
seqkit head -n 20 ncbi_blast.fasta > ncbi_blast_20.fasta

7.2 📦 Unir secuencias para análisis

Unimos los resultados filtrados de bases externas con las secuencias obtenidas localmente por BLAST para tener un conjunto consolidado.

# Proteínas
cat uniprot_blast_50.fasta blastp_Tatroviride_P06780.fasta > all_protein.fasta

# CDS
cat ncbi_blast_20.fasta tblastn_Tatroviride_P06780.fasta > all_cds.fasta