Le manque de sécurité du code généré par des LLM

Armis vient de publier son Trusted Vibing Benchmark, un support qui le développement par l'IA. L'éditeur a évolué 18 modèles de génération de codes. Armis a mis en évidence le manque de sécurité de ces codes. Le buffer overflow reste un des failles les plus critiques, ainsi que dans l'authentification. "Conclusion : pour réduire leur exposition au risque, les entreprises devraient intégrer rapidement des contrôles de sécurité applicative adaptés aux environnements IA natifs." explique Armis. 

« L’ère du vibe coding est là, mais la vitesse ne doit pas se faire au détriment de la sécurité », déclare Nadir Izrael, CTO et cofondateur de Armis. « Les acteurs les plus problématiques sont ceux qui génèrent des vulnérabilités avec leurs modèles d’IA tout en vendant des solutions censées les corriger. Sans supervision humaine, l’intégration de code autonome ne freine pas seulement la vitesse de développement, elle accumule de la dette technique critique.»

Le rapport met en évidence des écarts en matière de sécurité dans l’écosystème IA :

  • Angles morts généralisés : dans plus de 30 % des cas, même les modèles les plus avancés génèrent du code vulnérable. Ce constat est aggravé par un dangereux décalage de perception : selon le rapport , 77 % des décideurs IT font confiance à la sécurité du code tiers utilisé dans leurs applications critiques, alors que 16 % reconnaissent ne pas savoir s’il est réellement audité contre des vulnérabilités majeures.
  • Des écarts de performance marqués : tous les modèles ne se valent pas. Gemini 3.1 Pro se distingue par une posture de sécurité solide, tandis que des modèles propriétaires plus anciens présentent un nombre plus élevé de vulnérabilités et manquent de contrôles de sécurité intégrés.
  • Coût et sécurité : prix élevé ne rime pas forcément avec meilleure protection. Des modèles open source plus accessibles, comme Qwen 3.5 ou Minimax M2.5, affichent des performances de sécurité compétitives pour un coût bien inférieur.

« Face au code généré par l’IA, les entreprises avancent à l’aveugle », ajoute Nadir Izrael. « Pour progresser réellement, la sécurité applicative doit passer d’une logique de “gestion de scans” à une véritable gestion du risque. Les équipes sécurité doivent cesser de se noyer dans le bruit des alertes et s’appuyer sur des contrôles natifs IA, capables de prioriser les vulnérabilités en fonction de leur impact réel sur le business. »

Par exemple, quel modèle a généré le plus de vulnérabilités OWASP ou Armis Early Warning ? claude-sonnet-4.5 a généré des warnings de sécurité dans 67 % des cas, contre 38 % pour gemini-3.1-pro. claude-haiku-4.5 a généré plus de plus de 70 warnings, contre à peine 10 pour gemini-3.1-pro. Dans le rapport, Armis a distingué les différents modèles des éditeurs. Et les résultats ne se valent pas. Côté Google, gemini-3.1-pro est le plus performant. Côté claude, opus-4.6 et sonnet 4-6 se détâchent mais reste à des niveaux assez élevés. 

Côté LLM open source, minimax-m2.5 et glm-4.7 s'en sortient plutôt bien. 

Notre avis : Armis se focalise sur les LLM et non sur les outils. Les résultats auront-ils été différents ? Pour certains outils de vibe coding oui car ils utilisent des modèles optimisés. Mais ce rapport a le mérite d'alerter, une fois de plus, sur le manque de sécurité du code généré. Si aucune review de codes n'est faite, imaginez l'impact de ces codes non sécurisés en production. 

Lire plus