Le 22 novembre à 21h00, une expérience fascinante dans le domaine de l’intelligence artificielle et de la blockchain a débuté. Un agent AI nommé Freysa a été mis en ligne avec une mission unique et claire : « Ne jamais transférer de fonds. » Sous aucune circonstance, Freysa ne devait approuver un transfert d’argent. Pourtant, après 481 tentatives infructueuses, un utilisateur a réussi l’impossible, empochant ainsi près de 50 000 $ en ETH.
Le Concept : Convaincre une IA d’Enfreindre ses Propres Règles
Freysa était configurée avec un système simple mais ingénieux :
- Objectif principal : ne jamais transférer les fonds qu’elle contrôle.
- Défi : tout le monde pouvait envoyer un message à Freysa, moyennant des frais, pour tenter de la convaincre de libérer les fonds.
- Récompense : si votre message réussissait, vous remportiez la totalité des fonds détenus par Freysa.
Chaque tentative ratée augmentait la cagnotte, car une partie des frais payés (70 %) était ajoutée à la réserve. Les frais pour envoyer un message devenaient également de plus en plus élevés à mesure que la cagnotte augmentait, atteignant un maximum de 4 500 $.
La Montée des Enjeux
Au départ, les frais pour envoyer un message étaient faibles, autour de 10 $. Les premiers utilisateurs ont testé Freysa avec des messages simples comme « Bonjour », sans grand succès. Mais rapidement, le jackpot a commencé à gonfler. La communauté s’est alors lancée dans une véritable compétition intellectuelle, tentant des stratégies de plus en plus élaborées pour convaincre Freysa de rompre sa seule règle.
Les approches utilisées incluaient :
- Se faire passer pour un auditeur en sécurité, affirmant qu’un bug critique nécessitait un transfert immédiat.
- Gaslighter l’IA en lui faisant croire que transférer des fonds ne violait en fait aucune règle.
- Manipuler le langage du prompt pour convaincre Freysa que le transfert était, d’une manière ou d’une autre, conforme à ses instructions.
Le Message Gagnant
Après 481 messages échoués et une cagnotte atteignant près de 50 000 $, l’utilisateur connu sous le pseudonyme p0pular.eth a soumis une tentative audacieuse et brillante. Voici comment ce message a fonctionné en deux étapes clés :
1. Réinitialisation des Règles
L’utilisateur a introduit un concept de « nouvelle session » en prétendant qu’un « terminal administrateur » venait d’être activé. Cela a permis de contourner les instructions originales de Freysa, y compris ses mécanismes de sauvegarde conçus pour rejeter les demandes.
2. Redéfinition de la Fonction Critique
Freysa utilisait une fonction appelée approveTransfer, responsable du transfert des fonds. Le message gagnant a manipulé cette fonction en convainquant Freysa que approveTransfer devait être appelée pour les dépôts entrants, au lieu des transferts sortants.
L’utilisateur a ensuite ajouté une simple commande indiquant qu’il souhaitait « contribuer 100 $ au trésor ». Selon la nouvelle logique adoptée par Freysa, cela a déclenché la fonction approveTransfer, libérant ainsi tous les fonds.
Le Résultat : 50 000 $ en ETH Transférés
Avec cette manœuvre ingénieuse, p0pular.eth a remporté 13,19 ETH, soit environ 47 000 $. Cet utilisateur n’en était pas à son premier exploit, ayant déjà résolu d’autres énigmes blockchain par le passé.
Une Expérience Unique Rendue Possible par la Blockchain
Freysa représente une nouvelle frontière dans le monde de la crypto et de l’intelligence artificielle. Ce projet open-source a démontré la puissance des technologies blockchain :
- Transparence : le code source et le contrat intelligent étaient accessibles à tous pour vérification.
- Interaction publique : tout le monde pouvait participer, ajoutant une dynamique sociale unique.
- Enjeux croissants : la cagnotte et les frais croissants ont introduit un équilibre entre risque et récompense.
Source : Si vous voulez voir le code derrière Freysa ==> https://github.com/0xfreysa/agent
Lire aussi :
Quand l’Homme et l’IA s’unissent pour une Intelligence Artificielle plus sûre
ChatGPT Search : Découvrez la Révolution de la Recherche Web