Cádiz /
05 de julio de 2025

REDIBAGG, el método andaluz que reduce el esfuerzo de las máquinas para aprender

Fotografía ilustrativa de la noticia

Autoría: Patricia Pérez

Fuente: Fundación Descubre

En la era de big data, donde los supercomputadores necesitan horas de entrenamiento y montañas de datos para tomar decisiones, un grupo de investigación de la Universidad de Cádiz ha logrado aligerar la carga. REDIBAGG es la nueva técnica que permite a los algoritmos aprender más rápido, con menos información y sin perder eficacia. 

En el mundo de la inteligencia artificial, uno de los grandes retos es el tiempo que tardan las máquinas en aprender. Entrenar un sistema para que reconozca imágenes, detecte enfermedades o fraudes no es algo instantáneo: hay que darle muchísima información, ejemplos, repasar patrones, hacer pruebas… y todo eso conlleva horas o incluso días de procesamiento, y también gran consumo de recursos: informáticos y energéticos.

Pero ¿y si pudieran aprender más rápido y con menos esfuerzo? Esa es la idea detrás de REDIBAGG, una herramienta desarrollada por un equipo de investigación del departamento de Ingeniería Informática de la Universidad de Cádiz que reduce los conjuntos de datos utilizados durante la fase de aprendizaje. En consecuencia, los expertos han conseguido acelerar el proceso hasta un 70 % y sin perder precisión en las predicciones.

Los investigadores se proponen liberar el método para su disposición por parte de la comunidad científica.

Su aplicación no está limitada a un contexto específico, sino que resultaría valiosa en cualquier ámbito donde se manejen grandes volúmenes de información y se requiera una respuesta rápida y eficiente, para lo cual los algoritmos deban elegir entre varias opciones, lo que se conoce como clasificación. Por ejemplo:

  • En medicina, para la detección de enfermedades cardíacas o diabetes a partir de historiales clínicos.
  • En industria, para alertar sobre fallos de funcionamiento de robots o sensores en tiempo real.
  • En finanzas, para analizar solicitudes de crédito o productos bancarios, anticipándose a operaciones sospechosas de fraude financiero.

De hecho, el equipo validó REDIBAGG utilizando 30 conjuntos de datos reales extraídos de dominios tan diversos como la biología, la física, la ciberseguridad o las ciencias sociales. “Es un sistema muy versátil y robusto ante cualquier volumen de información, incluso con gran número de características o registros”, apunta a la Fundación Descubre Juan Francisco Cabrera-Sánchez, coautor del estudio.

A diferencia de modelos anteriores, su uso rebajaría la necesidad de almacenamiento y el coste energético, aumentando la velocidad en el desarrollo de sistemas inteligentes. Y todo ello sin complicar la implementación, ya que la innovación está diseñada para integrarse fácilmente en entornos de trabajo habituales de aprendizaje automático, como el lenguaje de programación Python y bibliotecas como Scikit-learn, herramientas ampliamente utilizadas por investigadores, desarrolladores y empresas.

Enseñar con menos para aprender igual

Esta técnica es una variante de un método muy utilizado para mejorar la precisión de los clasificadores en el contexto de la  inteligencia artificial: bagging (abreviatura en inglés de bootstrap aggregating), que consiste en entrenar varios modelos sobre subconjuntos creados a partir de la muestra de datos original. Cada uno aprende por separado y luego se combinan sus predicciones, como si fueran un comité de expertos. El resultado es más estable y preciso, porque los errores que pueda cometer uno se compensan con los aciertos de los demás.

Supercomputadores en la Universidad de Cádiz.

Sin embargo tiene un inconveniente: consume muchos recursos, ya que cada modelo se entrena con un volumen de información del mismo tamaño que el conjunto original. Ahí es donde REDIBAGG marca la diferencia, al aplicar un nuevo sistema de remuestreo que genera subconjuntos más pequeños, pero igualmente representativos.

Después, como en bagging clásico, los expertos han entrenado múltiples modelos independientes y combinado sus respuestas, pero recortando datos y tiempo. “En la era de big data, donde se trabaja con grandes volúmenes de información, utilizar métodos que reduzcan los tiempos de aprendizaje es de agradecer, sobre todo si se rebaja hasta un 70% con respecto al método original”, explica Esther-Lydia Silva-Ramírez, autora principal del estudio.

Como detallan en un artículo publicado en la revista Engineering Applications of Artificial Intelligence, la mejora es notable. En pruebas realizadas con 30 conjuntos de datos reales utilizando Urania, el supercomputador de la Universidad de Cádiz, la herramienta consiguió reducir el tiempo de entrenamiento en un 35 % de media, y en algunos casos concretos superó el 70% de ahorro. Además, comprobaron que los resultados eran igual de precisos que con el método tradicional.

Futuro abierto y más eficiente

Los próximos pasos del equipo investigador incluyen liberar el código para que la comunidad científica pueda usarlo y mejorarlo. También estudiarán cómo aplicar REDIBAGG a otros métodos de aprendizaje automático más allá de bagging, cómo combinarlo con técnicas de selección de variables para crear modelos aún más eficientes, o explorar su adaptación a tareas de regresión, en las que se predicen valores numéricos en lugar de categorías.

El equipo validó REDIBAGG utilizando 30 conjuntos de datos reales extraídos de dominios tan diversos como la biología o las ciencias sociales. 

En una era donde el volumen de datos crece exponencialmente, herramientas como esta ofrecen una forma de hacer frente al reto sin disparar el gasto computacional. “Al trabajar con modelos menos complejos, se reducen las horas de entrenamiento y el coste de almacenamiento, por lo que el método es mucho más eficiente”, añade la investigadora.

Reducir el uso de recursos sin perder calidad es una meta cada vez más relevante, no solo por motivos técnicos, sino también medioambientales. Además aporta una visión más sostenible de la inteligencia artificial: más eficiente, rápida y con menor impacto.

Más información en #CienciaDirecta: Crean un acelerador de modelos de inteligencia artificial hasta un 70% más rápido con menos datos


Ir al contenido