Los libros de Harry Potter ayudan al desarrollo de la inteligencia artificial

Mark Russinovich y Ronen Eldan, investigadores de Microsoft, desarrollaron una técnica que permite que los grandes modelos lingüísticos (LLM, por sus siglas en inglés) que alimentan los chatbots de inteligencia artificial (IA) generativa puedan alterarse o editarse para eliminar de forma selectiva cualquier información relacionada al contenido protegido por derechos de autor que aparece en los datos con los que han sido entrenados.

Los investigadores lograron que un LLM desarrollado por Meta* pudiera olvidarse selectivamente de las referencias directas a los libros de Harry Potter de J.K. Rowling, incluidos sus personajes y argumentos. La novedosa técnica propuesta no sacrifica la capacidad general de toma de decisiones y análisis del sistema de IA y permitió al LLM desaprender un subconjunto de datos de entrenamiento, sin tener que volver a entrenarse desde cero.

Un desafío legal y ético

Según los autores del estudio, los LLM se entrenan analizando masivos conjuntos de datos de Internet que a menudo contienen información protegida por derechos de autor, datos privados, contenido sesgado, datos falsos e incluso elementos tóxicos o dañinos. Esto plantea desafíos legales y éticos para los desarrolladores y usuarios de estos modelos, así como para los autores y editores originales.

Evaluación de la técnica para desaprender

Russinovich y Eldan evaluaron la técnica en la tarea de desaprender los libros de Harry Potter con el LLM Llama2-7b, recientemente desarrollado por Meta. En un artículo aún no revisado por pares publicado en arXiv, los autores explican que, si bien el modelo tomó más de 184.000 horas de procesamiento para preentrenarse, pudieron constatar que, en aproximadamente una hora de ajuste fino, pudieron borrar de manera efectiva la capacidad del modelo para generar o recuperar contenido relacionado con Harry Potter. El rendimiento del modelo prácticamente no se vio afectado.