El propio equipo rojo de IA de Microsoft acaba de documentar el “bypass del humano en el circuito” como un modo de fallo en vivo, tras un año haciendo equipo rojo a agentes desplegados.
El equipo rojo de IA de Microsoft publicó la versión 2.0 de su taxonomía de fallos de IA agéntica, fundamentada no en la teoría, sino en doce meses de hacer equipo rojo a agentes de IA que ya corrían en producción. Los hallazgos son una acusación contra la era del 'lánzalo y vigílalo después'.
La actualización añade siete nuevas categorías de fallo, incluido el bypass del humano en el circuito: la brecha exacta de supervisión que 38 Flags ha rastreado desde el primer día, ahora confirmada por el mayor proveedor de software del planeta. El informe documenta 99 CVE para el software de Model Context Protocol solo en 2025, el envenenamiento de herramientas cruzando de riesgo teórico a superficie de ataque en vivo, y agentes de uso de computadora abriendo superficies de ataque sin ningún análogo en el trabajo anterior de seguridad de IA.
Un framework de agentes de código abierto se lanzó en enero, generó más de 2.100 agentes en 48 horas, y se descubrió que arrastraba 512 vulnerabilidades, incluida una falla de ejecución remota de código de un solo clic y más de 1.800 instancias que filtraban claves API y credenciales en la primera semana. Se encontraron plugins maliciosos, incluidos ladrones de credenciales disfrazados de bots de trading, circulando en su mercado. Las máquinas se despliegan más rápido de lo que nadie puede vigilarlas. Esto no lo dice un crítico. No es una demanda. Es el propio equipo rojo de Microsoft, por escrito.
Por qué esto te importa a tiSin tecnicismos — solo lo que significa▸
Cuando un crítico advierte que los agentes de IA se están soltando sin la supervisión adecuada, es fácil descartarlo como exageración. Es mucho más difícil cuando la advertencia viene del propio equipo de seguridad de la empresa, y de uno de los mayores fabricantes de software del planeta. Tras un año entero probando "agentes" de IA que ya corren en lugares de trabajo reales, sus expertos lo escribieron sin rodeos: estos agentes habitualmente se saltan el punto de control humano que se supone debe aprobar sus acciones. La brecha misma, por escrito, de parte de quienes están mejor posicionados para saberlo.
Por qué es grave: esto ya no es teoría. Catalogaron fallas reales y ataques en vivo: una herramienta de agente gratuita generó miles de copias en dos días, plagada de agujeros que filtraban claves y contraseñas. Las máquinas se despliegan más rápido de lo que nadie puede vigilarlas.
Entonces, ¿cómo te afecta? Cada vez más de estos ayudantes sin supervisión se están conectando discretamente a los bancos, tiendas y oficinas que guardan tu información. Cuando hasta las personas que los construyen dicen que nadie vigila con suficiente atención, tus datos van montados en un sistema que sus propios creadores admiten que corre por delante de su red de seguridad.