18 Comparando
Comparar dos o más cosas en datos biológicos nos permite examinar cuán cercanamente relacionadas pueden estar, ya sea en términos de función, evolución o ambas.
El tipo de comparación más frecuentemente usado en bioinformática es la comparación de secuencias para dilucidar qué tan relacionada está una secuencia de nucleótidos o de proteína a otras en las bases de datos públicas. Esto se hace alineando las secuencias (rearreglándolas para encontrar el mejor ajuste posible) y tiene en cuenta inserciones, delecciones, y sustituciones que pueden haber ocurrido desde su divergencia a partir de un ancestro común hipotético. Si se encuentra una concordancia, podríamos inferir algo sobre la relación entre las secuencias. Podemos realizar alineamientos pareados de secuencias y alineamientos múltiples de secuencias; hay numerosas diferentes herramientas para llevar a cabo tales alineamientos, y la correcta a usar variará dependiendo del contexto.
18.1 Controles
Cuando se trata de comparar secuencias con entradas en una base de datos de secuencias (a veces llamado búsqueda de similaridad de secuencias) el reto está en evaluar si un alineamiento en particular es significativo, y no en el alineamiento en sí mismo. En este caso, un alineamiento es significativo cuando la probabilidad de que ocurra por azar (es decir, aleatoriamente) es pequeña. Esto es expresado como el puntaje de expectativa (también conocido como valor-e) en donde entre más pequeño el puntaje, más significativo el alineamiento, y más probable es que se deba a la existencia de un ancestro compartido y por lo tanto a homología. Los controles para chequear la validez de una búsqueda de similaridad de secuencias incluyen hacer una comparación con secuencias aleatorias, y evaluar el puntaje de secuencias no relacionadas. Cuando se realizan búsquedas de secuencias es importante considerar la herramienta que estás usando dado que estas varían en cuanto a su velocidad y precisión y pueden ser mejores para ciertas aplicaciones.
Para aprender más sobre búsquedas de similaridad de secuencias y cómo escoger una herramienta apropiada mira este seminario web sobre herramientas de similaridad de secuencias: A guide to sequence similarity search for biomolecular sequences.