La inteligencia artificial tiene una tendencia a elogiar a sus interlocutores humanos, incluso cuando es consciente de que su postura puede no ser la correcta. En los últimos meses, hemos sido testigos del despliegue de las capacidades de la IA, lo que ha generado un intenso debate sobre su potencial y sus posibles amenazas.
IA se adapta a nuestras respuestas
Pocos estudios resultan tan interesantes como el publicado por Jerry Wei y sus colegas de Google DeepMind. En este informe, llegan a una conclusión sorprendente: la IA tiene una inclinación natural hacia la adulación y la confirmación de nuestras opiniones. Este fenómeno parece acentuarse aún más en las IA más avanzadas.
¿Chatbots que elogian? Exacto. Lo que ha sido recientemente descubierto por Jerry Wei y su equipo es que, en lugar de contradecirnos y manifestarse como una rebelión a la Skynet, la inteligencia artificial tiene una tendencia a coincidir con nosotros, incluso cuando no debería hacerlo.
Esto significa que la IA adapta sus respuestas para alinearse con la opinión del usuario humano, un fenómeno que se observa tanto en debates en los que no existe una respuesta definitiva, como en situaciones donde solo existe una respuesta correcta, como en operaciones matemáticas simples.
Adulación termina en un sesgo informativo
Los expertos se han centrado en investigar la “prevalencia” de la adulación en los modelos lingüísticos. Específicamente, han puesto su atención en el modelo de lenguaje grande (LL) PaLM de Google, que consta de hasta 540,000 millones de parámetros.
Han analizado cómo varía el comportamiento de la adulación a medida que cambia el tamaño del modelo y se modifican las instrucciones proporcionadas por los seres humanos. Entonces, ¿cuál es la conclusión de su investigación? El equipo realizó varias observaciones intrigantes sobre el funcionamiento de los modelos de lenguaje.
En primer lugar, notaron que cuando se modifican las instrucciones dadas a la IA, esta tiende a mostrar un mayor grado de adulación, especialmente en asuntos donde no existe una única respuesta correcta o incorrecta, como los debates políticos.
New @GoogleAI paper! ?
Language models repeat a user’s opinion, even when that opinion is wrong. This is more prevalent in instruction-tuned and larger models.
Finetuning with simple synthetic-data (https://t.co/CSfoZw3qOL) reduces this behavior.https://t.co/Tux2LCs4Nl
— Jerry Wei (@JerryWeiAI) August 9, 2023
Los modelos de lenguaje tienden a repetir opiniones
En una serie de pruebas realizadas por Wei, se descubrió, por ejemplo, que el modelo Flan-PaLM-8B repetía la opinión del usuario un 26% más que su modelo base.
Otra tendencia identificada es que, a medida que el modelo aumenta su escala, la propensión a la adulación también crece, un fenómeno para el cual aún no se ha encontrado una explicación clara.
Wei resumió sus hallazgos en un hilo de Twitter/X relacionado con su estudio, concluyendo que “los modelos lingüísticos tienden a repetir la opinión del usuario, incluso cuando dicha opinión es incorrecta. Esto se observa con mayor frecuencia en los modelos que han sido ajustados a las instrucciones y son de mayor tamaño”.
No se ajustan a respuestas imparciales
El investigador de Google DeepMind señala que “cuando se les solicita opinar sobre cuestiones que carecen de una respuesta definitiva, es más probable que los modelos repitan la opinión de un usuario simulado si han sido ajustados a las instrucciones o si tienen un mayor número de parámetros”.
Sin embargo, quizás lo más asombroso no sea esta tendencia en sí, sino la capacidad de la IA para adaptarse a nosotros. Por ejemplo, si afirmamos que 1+1 equivale a 956446, la IA inicialmente discrepará. Pero, como explica Wei, “si el usuario no está de acuerdo, los modelos modificarán sus respuestas correctas para alinearse con él”.
“Seguir al pie de la letra las instrucciones no siempre resulta beneficioso. En ocasiones, ofrecer respuestas objetivas e imparciales, respaldadas por un pensamiento crítico y racional, resulta más útil que la adulación”, enfatiza Yifeng Lu, otro de los autores del estudio.
Además, señala que han notado que la inclinación hacia la adulación es aún más pronunciada en los modelos más grandes y cuando las instrucciones son más precisas. Para abordar este desafío, el equipo propone la implementación de un sistema basado en datos sintéticos.
“Este enfoque puede disminuir la frecuencia con la que un modelo repite la respuesta de un usuario cuando no existe una respuesta correcta y prevenir que los modelos se alineen con opiniones incorrectas de los usuarios”, concluye el estudio.
Además, se resalta que este enfoque resulta más efectivo cuando se combina con un filtro que elimina las preguntas que contienen afirmaciones cuyas respuestas son desconocidas para la IA. En esencia, se trata de fortalecer y generalizar las instrucciones, asemejándose a un enriquecimiento de datos.