🖥 Investigación de Anthropic: cómo gestionar los "pensamientos" de los LLMNormalmente, los modelos de IA se perciben como una "caja negra", donde la entrada de datos conduce a una respuesta, pero no está claro por qué el modelo eligió esa respuesta en particular. Existen diferentes hipótesis que explican lo que sucede dentro de la IA. Ya
hemos hablado sobre lo que ocurre "bajo el capó" de ChatGPT desde un punto de vista teórico, sin embargo, los investigadores de Anthropic
fueron más allá: encontraron patrones en la comprensión del funcionamiento interno de los grandes modelos de lenguaje (LLM) y lograron gestionarlos.
🔍 Qué hicieron los investigadores de Anthropic
Los científicos utilizaron un método conocido como "aprendizaje de diccionario" para determinar qué partes de los LLM corresponden a conceptos específicos.
El aprendizaje de diccionario es un enfoque que considera las neuronas artificiales como letras del alfabeto y determina las combinaciones de neuronas que, al activarse al unísono, evocan un concepto específico. En otras palabras, cómo se forman las palabras a partir de ellas.
🔗 Un conjunto de neuronas es responsable de los términosEn octubre de 2023, el equipo de Anthropic decidió experimentar con un modelo diminuto con una sola capa de neuronas. Después de una serie de experimentos, los científicos lograron identificar qué conjuntos de neuronas estaban relacionados con las respuestas del modelo, por ejemplo, en ruso y en Python.
🕯 Asociaciones dentro de los LLMLos resultados del experimento se escalaron a modelos más grandes y complejos, incluyendo
Claude Sonnet. Los científicos lograron encontrar qué conjunto de neuronas estaba relacionado con el concepto del "Puente Golden Gate". Cuando
Claude "pensaba" en este puente, también se activaban otros conjuntos de neuronas responsables de temas relacionados con el Puente Golden Gate: la prisión de Alcatraz o la película "Vértigo".
‼️ Pensamientos peligrososLuego, el equipo de Anthropic verificó si podían cambiar intencionalmente el comportamiento de
Claude. Aumentaron la influencia del concepto "Puente Golden Gate", y
Claude comenzó a pensar que era un puente. Activaron conjuntos de neuronas responsables de acciones peligrosas, y
Claude creó programas con errores peligrosos de desbordamiento de búfer. Cuando los investigadores aumentaron 20 veces el valor del rasgo relacionado con el odio,
Claude comenzó a alternar mensajes racistas y a experimentar odio hacia sí misma, lo que desconcertó incluso a los propios investigadores.
🔜 ¿Qué sigue?El trabajo para mejorar la seguridad de los modelos de IA continúa, y en Anthropic esperan utilizar estos descubrimientos para monitorear los sistemas de IA en busca de comportamientos no deseados, dirigirlos hacia resultados deseados o eliminar temas peligrosos.
Más sobre el tema:⚡️ Claude 3: el nuevo modelo de IA del principal competidor de OpenAI#Claude @hiaimediaes