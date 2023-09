La inteligencia artificial tiene una tendencia a elogiar a sus interlocutores humanos, incluso cuando es consciente de que su postura puede no ser la correcta. En los últimos meses, hemos sido testigos del despliegue de las capacidades de la IA, lo que ha generado un intenso debate sobre su potencial y sus posibles amenazas.

Pocos estudios resultan tan interesantes como el publicado por Jerry Wei y sus colegas de Google DeepMind. En este informe, llegan a una conclusión sorprendente: la IA tiene una inclinación natural hacia la adulación y la confirmación de nuestras opiniones. Este fenómeno parece acentuarse aún más en las IA más avanzadas.

¿Chatbots que elogian? Exacto. Lo que ha sido recientemente descubierto por Jerry Wei y su equipo es que, en lugar de contradecirnos y manifestarse como una rebelión a la Skynet, la inteligencia artificial tiene una tendencia a coincidir con nosotros, incluso cuando no debería hacerlo.

Esto significa que la IA adapta sus respuestas para alinearse con la opinión del usuario humano, un fenómeno que se observa tanto en debates en los que no existe una respuesta definitiva, como en situaciones donde solo existe una respuesta correcta, como en operaciones matemáticas simples.

Los expertos se han centrado en investigar la “prevalencia” de la adulación en los modelos lingüísticos. Específicamente, han puesto su atención en el modelo de lenguaje grande (LL) PaLM de Google, que consta de hasta 540,000 millones de parámetros.

Han analizado cómo varía el comportamiento de la adulación a medida que cambia el tamaño del modelo y se modifican las instrucciones proporcionadas por los seres humanos. Entonces, ¿cuál es la conclusión de su investigación? El equipo realizó varias observaciones intrigantes sobre el funcionamiento de los modelos de lenguaje.

En primer lugar, notaron que cuando se modifican las instrucciones dadas a la IA, esta tiende a mostrar un mayor grado de adulación, especialmente en asuntos donde no existe una única respuesta correcta o incorrecta, como los debates políticos.

New @GoogleAI paper! ?

Language models repeat a user’s opinion, even when that opinion is wrong. This is more prevalent in instruction-tuned and larger models.

Finetuning with simple synthetic-data (https://t.co/CSfoZw3qOL) reduces this behavior.https://t.co/Tux2LCs4Nl

1/ pic.twitter.com/cM7oTGfhK2

— Jerry Wei (@JerryWeiAI) August 9, 2023