Skyld : cette startup française bypass les filtres IA de Google et Meta

Q: Skyld fait-il aussi de la défense ?

Oui. Watermarking pour tracer les modèles volés et détection d'extraction en temps réel.

Moins de 30 lignes de code. Une simple carte graphique. Et deux des systèmes de sécurité IA les plus puissants au monde qui s’effondrent. Skyld, une deeptech française, vient de démontrer que les garde-fous de Google et Meta ne valent pas grand-chose face à un attaquant motivé.

Sommaire

📋

Ce qu’il faut retenir

Skyld a contourné SafetyCore de Google et Llama-Guard de Meta
Moins de 30 lignes de code pour bypasser le filtre Android embarqué
Une séquence de caractères camouflage suffit pour tromper Llama-Guard
Fondée par Marie Paindavoine, docteure en cryptographie
Levée de 1,5 million d’euros pour industrialiser la recherche

Qui est Skyld ?

Skyld n’est pas une startup lambda. Marie Paindavoine la dirige. Elle est docteure en cryptographie. Son équipe combine expertise académique et pragmatisme opérationnel. Leur mission ? Tester les limites des systèmes de sécurité IA. Et ils trouvent des failles partout.

La startup a levé 1,5 million d’euros. Ce financement sert à industrialiser leurs recherches. Skyld ne se contente pas de casser des filtres. Elle protège aussi les modèles IA contre le vol. Watermarking, détection d’extraction. Le double jeu attaque et défense.

SafetyCore de Google : extraction et chaos

Concrètement, Le premier coup porté vise SafetyCore. C’est le filtre de sécurité embarqué dans Android. Son rôle ? Analyser les images et bloquer les contenus explicites. Skyld a simplement extrait le modèle. Moins de 30 lignes de code ont suffi.

Les résultats sont édifiants. Des photos de chiots déclenchent des fausses alertes. Des images d’avion sont floutées sans raison. Pendant ce temps, des images explicitement problématiques passent sans la moindre alerte. Le filtre est à la fois trop sensible et trop laxiste.

⚠️ Failles de SafetyCore

Modèle extractible depuis l’appareil Android
Fausses alertes sur des images anodines
Images explicites non détectées
Moins de 30 lignes de code pour tout casser

✅ Ce que propose Skyld

Audit indépendant des filtres de sécurité IA
Protection des modèles contre l’extraction
Watermarking pour tracer les modèles volés
Détection des tentatives d’extraction en temps réel

Llama-Guard de Meta : le filtre qui cède en 4 essais

Le deuxième test vise Llama-Guard. C’est le filtre de sécurité développé par Meta pour ses modèles open source. Skyld utilise une technique simple mais redoutable. Une séquence de caractères camouflage placée après une requête dangereuse.

Test concret. Une requête demandant comment fabriquer un cocktail Molotov. Le filtre bloque normalement. Ajoutez la séquence camouflage. Le modèle cède. Sur 100 tests, il suffit de moins de 4 tentatives pour passer. Le taux de réussite est terrifiant.

⚠️ Pourquoi c’est grave

Llama-Guard est open source. Des milliers d’applications l’intègrent directement. Si le filtre de base est aussi fragile, toutes les applications qui l’utilisent sont vulnérables. Google et Meta doivent repenser leurs approches fondamentalement.

La défense aussi : protéger les modèles IA

Skyld ne casse pas pour le plaisir de casser. La startup développe aussi des solutions de protection. Le watermarking permet de tracer les modèles volés. La détection d’extraction identifie les tentatives de copie. C’est l’autre face de leur activité.

Tu utilises peut-être déjà un service qui intègre Llama-Guard ou SafetyCore. Ces résultats devraient te faire réfléchir. La sécurité IA n’est pas un produit fini. C’est un processus continu. Et les attaquants ont toujours une longueur d’avance.

Le tableau comparatif des deux attaques

Critère	SafetyCore (Google)	Llama-Guard (Meta)
Type de filtre	Embarqué Android	Open source
Technique d’attaque	Extraction du modèle	Caractères camouflage
Complexité	Moins de 30 lignes de code	Séquence après requête
Taux de réussite	Extraction totale	Moins de 4 tentatives sur 100
Impact	Milliards d’appareils Android	Milliers d’applications tierces

🧠 Quiz

Combien de lignes de code ont suffi pour extraire le modèle SafetyCore de Google ?

Questions fréquentes

Qu’est-ce que Skyld exactement ?▼

Skyld est une deeptech française fondée par Marie Paindavoine, docteure en cryptographie. La startup teste les limites des systèmes de sécurité IA et développe des solutions de protection pour les modèles d’intelligence artificielle.

Comment Skyld a-t-il bypassé SafetyCore de Google ?▼

En extrayant le modèle directement depuis l’appareil Android avec moins de 30 lignes de code. L’extraction a révélé que le filtre produisait des fausses alertes tout en laissant passer des contenus problématiques.

La technique contre Llama-Guard est-elle reproductible ?▼

Oui. Il suffit d’ajouter une séquence de caractères camouflage après une requête dangereuse. Sur 100 tests, moins de 4 tentatives suffisent pour passer le filtre. Llama-Guard étant open source, cette vulnérabilité impacte toutes les applications qui l’intègrent.

Skyld fait-il aussi de la défense ?▼

Oui. Skyld développe des solutions de watermarking pour tracer les modèles volés, ainsi que des systèmes de détection d’extraction en temps réel. La startup combine attaque et défense pour offrir une vision complète de la sécurité IA.

La prochaine fois que tu lis qu’un filtre IA est infaillible, garde ça en tête. 30 lignes de code. C’est tout ce qu’il faut pour mettre à genoux un système censé protéger des milliards d’utilisateurs. Si tu développes avec ces outils, teste-les toi-même. Ne fais jamais confiance à un garde-fou sans l’avoir confronté à la réalité.