ChatGPT s’est fait hacké

La menace des failles de sécurité

Il n’y a pas lieu de s’inquiéter que vos conversations secrètes sur ChatGPT aient été obtenues lors d’une brèche récemment signalée dans les systèmes d’OpenAI. Le piratage lui-même, bien que troublant, semble avoir été superficiel. Mais il rappelle que les entreprises d’IA se sont rapidement transformées en l’une des cibles les plus juteuses pour les pirates informatiques.

Aucune faille de sécurité ne devrait être considérée comme insignifiante et l’écoute des discussions internes sur le développement d’OpenAI a certainement sa valeur. Mais c’est loin d’être un pirate informatique qui accède aux systèmes internes, aux modèles en cours, aux feuilles de route secrètes, etc. Mais cela devrait quand même nous effrayer. Et pas nécessairement à cause de la menace de la Chine ou d’autres adversaires qui nous dépasseraient dans la course à l’armement de l’IA.

Les trois types de données sensibles

Les données d’entraînement de haute qualité

On ne sait pas exactement de quelles données de formation elles disposent car les entreprises sont incroyablement discrètes au sujet de leurs stocks. Mais c’est une erreur de penser qu’il ne s’agit que de gros tas de données récupérées sur le web. Oui, elles utilisent des racleurs de sites web ou des ensembles de données comme. Mais c’est une tâche gigantesque que de transformer ces données brutes en quelque chose qui puisse être utilisé pour entraîner un modèle comme le GPT-4o. Cette tâche nécessite un nombre considérable d’heures de travail humain et ne peut être que partiellement automatisée.

Certains ingénieurs en apprentissage automatique ont émis l’hypothèse que, parmi tous les facteurs entrant dans la création d’un grand modèle linguistique, le plus important est la qualité de l’ensemble de données. C’est pourquoi un modèle formé sur X et Reddit ne sera jamais aussi éloquent qu’un modèle formé sur toutes les œuvres publiées au cours du siècle dernier.

Les ensembles de données de formation construits par OpenAI sont d’une grande valeur pour les concurrents, qu’il s’agisse d’autres entreprises, d’États adversaires ou de régulateurs américains. La FTC ou les tribunaux n’aimeraient-ils pas savoir exactement quelles données ont été utilisées et si OpenAI a été sincère à ce sujet ?

Les interactions d’utilisateurs en masse

Mais ce qui est peut-être encore plus précieux, c’est l’énorme trésor de données d’utilisateurs d’OpenAI. Probablement des milliards de conversations avec ChatGPT sur des centaines de milliers de sujets. Tout comme les données de recherche étaient autrefois la clé pour comprendre la psyché collective du web, ChatGPT a le doigt sur le pouls d’une population qui n’est peut-être pas aussi vaste que l’univers des utilisateurs de Google, mais qui offre beaucoup plus de profondeur.

Dans le cas de Google, une augmentation des recherches portant sur les « climatiseurs » indique que le marché est en train de se réchauffer. Mais ces utilisateurs ne discutent pas ensuite de ce qu’ils veulent, du montant qu’ils sont prêts à dépenser, des caractéristiques de leur logement, des fabricants qu’ils veulent éviter, etc. Vous savez que cette information est précieuse parce que Google essaie lui-même de convertir ses utilisateurs pour qu’ils fournissent ces mêmes informations en remplaçant les recherches par des interactions avec l’IA !

Pensez au nombre de conversations que les gens ont eues avec ChatGPT et à l’utilité de ces informations. Non seulement pour les développeurs d’IA, mais aussi pour les équipes de marketing, les consultants ou les analystes. C’est une mine d’or.

Les données clients

La dernière catégorie de données est peut-être celle qui a le plus de valeur sur le marché libre. C’est la manière dont les clients utilisent réellement l’IA et les données qu’ils ont eux-mêmes introduites dans les modèles. Des centaines de grandes entreprises et d’innombrables autres plus petites utilisent des outils comme OpenAI et les API d’Anthropic pour une variété tout aussi grande de tâches. Et pour qu’un modèle linguistique leur soit utile, il doit généralement être affiné sur leurs propres bases de données internes ou y avoir accès.

Il peut s’agir de quelque chose d’aussi prosaïque que d’anciennes feuilles de budget ou des dossiers du personnel. Ou aussi précieux que le code d’un logiciel qui n’a pas encore été publié. Ce qu’ils font des capacités de l’IA est leur affaire. Mais le simple fait est que le fournisseur d’IA dispose d’un accès privilégié comme n’importe quel autre produit SaaS.

Plus grave, il s’agit de secrets industriels et les entreprises spécialisées dans l’IA se retrouvent soudainement au cœur d’une grande partie d’entre eux. La nouveauté de cet aspect de l’industrie comporte un risque particulier dans la mesure où les processus d’IA ne sont tout simplement pas encore normalisés ou pleinement compris.

Faites attention à vos données

Comme tout fournisseur de SaaS, les entreprises d’IA sont parfaitement capables de fournir des niveaux de sécurité et de confidentialité conformes aux normes de l’industrie, des options sur site et, d’une manière générale, de fournir leurs services de manière responsable. On ne doute pas que les bases de données privées et les API des clients d’OpenAI soient verrouillés de manière très stricte. Ils doivent certainement être aussi conscients des risques inhérents à la manipulation de données confidentielles dans le contexte de l’IA.

Mais les bonnes pratiques de sécurité ne changent pas la valeur de ce qu’elles sont censées protéger. Ni le fait que les acteurs malveillants s’accrochent à la porte pour entrer. La sécurité, ce n’est pas seulement choisir les bons paramètres ou tenir son logiciel à jour, même si ces éléments de base sont évidemment importants. Il s’agit d’un jeu du chat et de la souris sans fin qui, ironiquement, est aujourd’hui renforcé par l’IA elle-même.

Il n’y a aucune raison de paniquer. Les entreprises ayant accès à de nombreuses données personnelles ou commerciales de grande valeur sont confrontées à des risques similaires et les gèrent depuis des années. Mais les entreprises d’IA représentent une cible plus récente, plus jeune et potentiellement plus juteuse que le serveur d’entreprise mal configuré ou le courtier en données irresponsable que l’on connaît.

Même un piratage comme celui d’OpenAi, sans exfiltration sérieuse à notre connaissance, devrait inquiéter tous ceux qui font des affaires avec des entreprises d’IA. Elles se sont mis des cibles dans le dos. Ne soyez pas surpris si quelqu’un, ou tout le monde, tente sa chance.

Roger Blonnay
Roger Blonnay
J'ai bourlingué à travers le monde comme journaliste itinérant. J'ai surtout écris des actualités commerciales et financières avant de plonger dans la cryptosphère en 2016. Ma passion, c'est l'investissement. Mais je m'intéresse également à la compréhension de la crypto du point de vue des finances personnelles et de ses fondamentaux.

Autres Articles

spot_img
4,317SuiveursSuivre

Derniers Articles