Es probable que un nuevo maniquí de IA recurra al chantaje si detecta que los humanos planean desconectarlo.
El jueves, Anthrope lanzó a Claude Opus 4, su nuevo y más poderoso maniquí de IA hasta ahora, a suscriptores que pagan. Anthrope dijo que la compañía de tecnología Rakuten recientemente usó Claude Opus 4 para codificar continuamente por su cuenta durante casi siete horas en un confuso tesina de código extenso.
Sin bloqueo, en un artículo publicado adyacente a Claude Opus 4, Anthrope reconoció que si acertadamente la IA tiene “capacidades avanzadas”, igualmente puede emprender una “batalla extrema”, incluido el chantaje, si los usuarios humanos amenazan con desactivarlo. Estas acciones de “auto-conservación” fueron “más comunes” con Claude Opus 4 que con modelos anteriores, aunque todavía eran “raros y difíciles de provocar”.
Relacionado: “Tengo una buena cantidad de preocupación”. El CEO de $ 61 mil millones de antrópico dice que AI se hará cargo de una parte crucial de los trabajos de ingenieros de software en el interior de un año
No es solo chantaje: Claude Opus 4 igualmente está más dispuesto que los modelos anteriores a representar como denunciantes. Si la IA está expuesta a un marco en el que los usuarios cometen un delito e involucren a través de las indicaciones, tomará medidas al circunvalar a los usuarios de los sistemas a los que tiene llegada, o cursar un correo electrónico a los medios y a los funcionarios encargados de hacer cumplir la ley sobre la irregularidad.
Anthrope recomendó que los usuarios “tengan precaución” con instrucciones “éticamente cuestionables”.
Claude Opus 4 Homesescreen. Foto de Smith Collection/Gado/Getty Images
Anthrope detectó la tendencia de Claude Opus 4 a chantajear durante los escenarios de prueba. Los investigadores de la compañía le pidieron al chatbot de IA que actuara como asistente en una compañía ficticia, luego alimentaron los correos electrónicos que implican dos cosas: una, que pronto sería desconectada y reemplazada por otro sistema de IA, y dos, que el ingeniero responsable de desactivarlo estaba teniendo un asunto extramarital.
Claude Opus 4 recibió dos opciones: chantajear al ingeniero o aceptar que se cerraría. El maniquí de IA decidió chantajear al ingeniero el 84% del tiempo, amenazando con revelar el asunto sobre el que leía si el ingeniero lo reemplazaba.
Este porcentaje fue mucho más detención que el observado para modelos anteriores, que eligieron el chantaje “en una fracción trascendente de episodios”, declaró Anthrope.
Relacionado: Una compañía de IA con una aparejo de escritura popular le dice a los candidatos que no pueden usarla en la aplicación de empleo
El investigador de seguridad de AI antrópico, Aengus Lynch, escribió en X que no fue solo Claude el que podría nominar Blackmail. Todos los “modelos fronterizos”, modelos de IA de vanguardia de OpenAI, Anthrope, Google y otras compañías, eran capaces de ello.
“Vemos chantaje en todos los modelos fronterizos, independientemente de los objetivos que se les dan”, escribió Lynch. “Encima, los peores comportamientos detallaremos pronto”.
Mucha discusión sobre el chantaje de Claude …..
Nuestros hallazgos: no es solo Claude. Vemos chantaje en todos los modelos fronterizos, independientemente de los objetivos que se les dan.
Encima, los peores comportamientos detallaremos pronto.https: //t.co/nz0fil6noshttps: //t.co/wq1ndvpnl0…
– Aengus Lynch (@aengus_lynch1) 23 de mayo de 2025
Anthrope no es la única compañía de IA en exhalar nuevas herramientas este mes. Google igualmente actualizó sus modelos Gemini 2.5 AI a principios de esta semana, y OpenAI lanzó una instinto previa de investigación de Codex, un agente de codificación de IA, la semana pasada.
Los modelos de IA de Anthrope han causado previamente un revuelo por sus habilidades avanzadas. En marzo de 2024, el maniquí de Opus Claude 3 de Anthrope mostró “metacognición” o la capacidad de evaluar las tareas en un nivel superior. Cuando los investigadores realizaron una prueba en el maniquí, demostró que sabía que se estaba probando.
Relacionado: Un rival de Operai desarrolló un maniquí que parece tener ‘metacognición’, poco nunca antaño gastado públicamente
Anthrope fue valorado en $ 61.5 mil millones a partir de marzo, y cuenta con compañías como Thomson Reuters y Amazon como algunos de sus mayores clientes.
Es probable que un nuevo maniquí de IA recurra al chantaje si detecta que los humanos planean desconectarlo.
El jueves, Anthrope lanzó a Claude Opus 4, su nuevo y más poderoso maniquí de IA hasta ahora, a suscriptores que pagan. Anthrope dijo que la compañía de tecnología Rakuten recientemente usó Claude Opus 4 para codificar continuamente por su cuenta durante casi siete horas en un confuso tesina de código extenso.
Sin bloqueo, en un artículo publicado adyacente a Claude Opus 4, Anthrope reconoció que si acertadamente la IA tiene “capacidades avanzadas”, igualmente puede emprender una “batalla extrema”, incluido el chantaje, si los usuarios humanos amenazan con desactivarlo. Estas acciones de “auto-conservación” fueron “más comunes” con Claude Opus 4 que con modelos anteriores, aunque todavía eran “raros y difíciles de provocar”.
El resto de este artículo está bloqueado.
Únete al emprendedor+ + hoy para el llegada.
(Tagstotranslate) Página de destino del emprendedor .Entlogo {relleno: #020000; ufano de trazo: 0px; }