Tabla de contenido
Ciudad de México.- Los modelos de inteligencia artificial pueden memorizar información que no deberían y reproducirla casi palabra por palabra, lo que abre riesgos legales y de privacidad. Un nuevo proyecto busca entender este problema y explorar si es posible hacer que estos sistemas “olviden” ciertos datos.
El fenómeno, conocido como “memorización”, ocurre cuando modelos de lenguaje —entrenados con grandes cantidades de textos como libros, artículos y páginas web— no generan contenido nuevo, sino que repiten fragmentos exactos de lo que aprendieron. Esto puede incluir desde textos protegidos por derechos de autor hasta información sensible, como direcciones o números de tarjetas.
El tema ha generado controversia. Empresas como OpenAI y Microsoft enfrentan demandas por presunto uso indebido de contenido, luego de que sistemas como ChatGPT reprodujeran textos completos de medios como The New York Times.
Para estudiar el problema, un grupo de investigadores desarrolló una herramienta llamada “Hubble”, diseñada específicamente para analizar cómo y cuándo los modelos memorizan datos. El proyecto será presentado en abril en una conferencia internacional en Brasil.
El equipo utilizó grandes recursos de cómputo para entrenar varios modelos y comparar su comportamiento. Entre los hallazgos, detectaron que la información introducida al final del entrenamiento tiene más probabilidades de ser recordada y repetida.
Esto plantea un dilema: si los desarrolladores agregan datos importantes al final, los modelos los retienen mejor, pero también aumenta el riesgo de memorización. Si los agregan antes, esos datos pueden perderse con el tiempo, lo que afecta el desempeño del sistema.
Los investigadores no encontraron una solución definitiva, pero consideran que herramientas como Hubble permitirán estudiar mejor el problema y probar métodos para que las IA eliminen información específica, un proceso conocido como “desaprendizaje”.