Rebuscando pequeños genes perdidos del genoma humano
Un equipo de la Universidad Pablo de Olavide ha desarrollado este algoritmo completamente diferente para la búsqueda de ORFs, que busca pequeñas secuencias de un genoma que codifican péptidos presentes en muchas proteínas distintas, ‘palabras’ que con frecuencia se encuentran en muchas otras frases. De esta forma, identifican secuencias del genoma que con alta probabilidad codifican para proteínas.
Comparar la genética con un libro que debe ser entendido y descifrado ayuda a comprender el paso que ha dado el equipo de investigación de la Universidad Pablo de Olavide, liderado por Juan Jiménez y Antonio Pérez Pulido, tras desarrollar una herramienta bioinformática para buscar pequeños genes perdidos en genomas secuenciados. “Para entender el significado de un libro no hay nada como leer su contenido y en el siglo XXI, leer la secuencia de los millones de millones de letras (nucleótidos) que conforman el texto de un genoma es una rutina para entender su contenido, para descifrar el significado de la información genética de los seres vivos”, explican los investigadores, que aclaran que la tarea de entender el significado del texto de un genoma pasa por identificar las ‘frases’ que contiene, es decir, en términos genéticos, identificar sus genes y anotarlos en el genoma.
Esta ingente tarea solo se puede abordar con programas bioinformáticos que, aplicando reglas universales del lenguaje de los genes, delimitan donde comienza y donde termina cada uno, o al menos, donde comienza y termina la parte del gen que codifica para una proteína (lo que se conoce como ORF).
A pesar de contar con excelentes programas de análisis computacional, esas reglas tienen muchas limitaciones y más del 20% de los genes escapan a un escrutinio básico a la hora de anotarlos en el genoma. La identificación es especialmente difícil en el caso de genes muy pequeños, que codifican para pequeños péptidos bioactivos (sORFs) que en estos programas pasan por ser secuencias aleatorias, sin significado biológico.
Es por ello que el equipo de la UPO ha desarrollado esta herramienta bioinformática completamente diferente para la búsqueda de ORFs, un algoritmo que busca pequeñas secuencias de un genoma que codifican péptidos presentes en muchas proteínas distintas, ‘palabras’ que con frecuencia se encuentran en muchas otras frases. De esta forma, identifican secuencias del genoma que con alta probabilidad codifican para proteínas.
Ese algoritmo, llamado AnABlast, permite identificar genes donde ningún otro programa lo hace. Aplicando el análisis AnABlast en el genoma completo del nematodo C. elegans (un modelo biológico de laboratorio), estos profesores, en colaboración con Manuel Muñoz y Andrés Garzón y otros miembros del grupo de investigación de Bioinformática para el análisis de secuencias biológicas, también profesores de la UPO e investigadores en el Centro Andaluz de Biología del Desarrollo, han logrado identificar 82 nuevos sORFs en este organismo, varios de los cuales se demuestra experimentalmente que codifican péptidos bioactivos porque cuando se reduce su función, el nematodo no completa normalmente su desarrollo embrionario.
AnABlast, por tanto, supone una nueva estrategia bioinformática para ‘rebuscar’ genes perdidos en genomas secuenciados, una aproximación especialmente útil para encontrar aquellos genes que codifican péptidos muy pequeños (sORFs) que no se encuentran con otras aplicaciones. Tras demostrar que esta herramienta funciona con el genoma de un nematodo, el equipo de científicos explica que ha comenzado “la fascinante tarea de rebuscar los ‘genes perdidos’ del genoma humano”.
El trabajo parte de la tesis doctoral de Carlos S. Casimiro-Soriguer y ha sido publicado en Bioinformatics, una revista científica de referencia en este campo de estudio.
Suscríbete a nuestra newsletter
y recibe el mejor contenido de i+Descubre directo a tu email