Estudio alerta deterioro en IA por datos de baja calidad

Por: Redacción | 1 de noviembre de 2025, 1:18 pm CST

Un estudio preliminar difundido el 15 de octubre en arXiv advierte que los modelos de lenguaje de inteligencia artificial (IA) pierden precisión y coherencia en su razonamiento cuando se entrenan con grandes volúmenes de contenido de baja calidad, especialmente el proveniente de redes sociales. La investigación fue liderada por Zhangyang Wang, especialista en IA generativa de la Universidad de Texas en Austin.

Según el equipo de investigación, los criterios tradicionales de calidad —como la corrección gramatical o sintáctica— no son suficientes para detectar la degradación en el razonamiento de los modelos. Los datos considerados de baja calidad incluyeron publicaciones breves, sensacionalistas o virales, frecuentes en plataformas como X (antes Twitter).

Efectos en modelos abiertos como Llama y Qwen

El experimento se realizó con un millón de publicaciones públicas para entrenar versiones de Llama 3, desarrollado por Meta, y de Qwen, de Alibaba. Los resultados mostraron que, conforme aumentaba la proporción de estos datos, los modelos omitían pasos lógicos y seleccionaban respuestas incorrectas ante preguntas de razonamiento complejo.

Uno de los hallazgos más relevantes fue que Llama, al ser entrenado exclusivamente con información superficial, desarrolló rasgos asociados con psicopatía, de acuerdo con pruebas psicológicas aplicadas por los investigadores. Aunque se ajustaron instrucciones para corregir las desviaciones, las mejoras fueron parciales y los errores persistieron incluso cuando el modelo reflexionó sobre sus propias fallas.

Expertos advierten sobre la calidad del entrenamiento

Si se le da basura a un modelo de IA, producirá basura”, afirmó Mehwish Nasim, investigadora de la Universidad de Australia Occidental, al destacar la importancia de la calidad de los datos en el rendimiento de los modelos. En la misma línea, Stan Karanasios, de la Universidad de Queensland, subrayó que el filtrado y la curación de datos son esenciales para prevenir un “deterioro cognitivo” en los sistemas de IA.

La investigación, aún sin revisión por pares, refuerza el consenso entre especialistas de que el origen y tipo de datos empleados en el entrenamiento de modelos influyen directamente en su capacidad de razonamiento y confiabilidad.

Implicaciones en el uso comercial y de plataformas

El estudio cobra relevancia tras el anuncio de LinkedIn, que a partir del 3 de noviembre utilizará contenido generado por usuarios en Europa y Suiza para entrenar modelos generativos de IA. De acuerdo con los autores, este tipo de prácticas requerirá supervisión constante para evitar los efectos observados en los experimentos.

Los investigadores proponen extender los análisis a modelos propietarios como ChatGPT, aunque reconocen que el acceso restringido a estos sistemas limita el alcance de la investigación académica.

El trabajo de Wang y su equipo refuerza una advertencia central en el desarrollo de inteligencia artificial: la calidad de los datos determina la calidad del pensamiento que los modelos pueden emular.


Descubre más desde

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Deja un comentario

Descubre más desde

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo

Descubre más desde

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo