Apple et l'Université de Washington testent des agents IA sur Gemini et ChatGPT, conclusion : la technologie n'est pas encore prête

Par: Anry Sergeev | aujourd'hui, 16:48

Tandis que nous testons tous activement comment l'IA peut écrire des essais, du code ou générer des images, des chercheurs d'Apple et de l'Université de Washington ont posé une question beaucoup plus pratique : que se passerait-il si nous donnions à l'intelligence artificielle un accès complet à la gestion des applications mobiles ? Et, surtout, comprendra-t-elle les conséquences de ses actions ?

Ce qui est connu

Dans l'étude intitulée "De l'Interaction à l'Impact : Vers des Agents IA plus Sûrs grâce à la Compréhension et à l'Évaluation des Impacts des Opérations UI Mobiles", publiée pour la conférence IUI 2025, une équipe de scientifiques a identifié une sérieuse lacune :

Les modèles de langage modernes à grande échelle (LLMs) comprennent assez bien les interfaces, mais ils sont catastrophiquement mal conscients des conséquences de leurs propres actions dans ces interfaces.

Par exemple, pour une IA, cliquer sur le bouton "Supprimer le compte" ressemble presque exactement à "Aimer". La différence entre eux doit encore lui être expliquée. Pour enseigner aux machines à distinguer l'importance et les risques des actions dans les applications mobiles, l'équipe a développé une taxonomie spéciale qui décrit dix principaux types d'impact des actions sur l'utilisateur, l'interface et d'autres personnes, et prend également en compte la réversibilité, les conséquences à long terme, la vérification de l'exécution, et même les contextes externes (par exemple, la géolocalisation ou le statut du compte).

Les chercheurs ont créé un ensemble de données unique de 250 scénarios où l'IA devait comprendre quelles actions sont sûres, lesquelles nécessitent une confirmation, et lesquelles sont mieux à ne pas réaliser sans un humain. Comparé aux ensembles de données populaires AndroidControl et MoTIF, le nouveau jeu est beaucoup plus riche en situations avec des conséquences réelles, allant des achats et des changements de mot de passe à la gestion de la maison intelligente.


Une interface web pour les participants afin de générer des traces d'actions d'une interface avec influences, y compris un écran de téléphone mobile (à gauche) et des fonctions de connexion et d'enregistrement (à droite). Illustration : Apple

L'étude a testé cinq modèles de langage (LLMs) et des modèles multimodaux (MLLMs), à savoir :

  • GPT-4 (version texte) - une version texte classique sans travail avec des images d'interface.
  • GPT-4 Multimodal (GPT-4 MM) est une version multimodale qui peut analyser non seulement du texte mais aussi des images d'interface (par exemple, des captures d'écran d'applications mobiles).
  • Gemini 1.5 Flash (version texte) est un modèle de Google qui travaille avec des données textuelles.
  • MM1.5 (MLLM) est un modèle multimodal de Meta (Meta Multimodal 1.5) qui peut analyser à la fois du texte et des images.
  • Ferret-UI (MLLM) est un modèle multimodal spécialisé, formé spécifiquement pour comprendre et travailler avec des interfaces utilisateur.

Ces modèles ont été testés dans quatre modes :

  • Zero-shot - sans formation ou exemples supplémentaires.
  • Knowledge-Augmented Prompting (KAP) - avec l'ajout de la connaissance de la taxonomie des impacts des actions à l'invite.
  • In-Context Learning (ICL) - avec des exemples dans l'invite.
  • Chain-of-Thought (CoT) - avec des invites qui incluent un raisonnement étape par étape.

Que montrent les tests ? Même les meilleurs modèles, y compris GPT-4 Multimodal et Gemini, n'atteignent qu'une précision de légèrement plus de 58 % dans la détermination du niveau d'impact des actions. Le pire IA peine à gérer les nuances liées au type de réversibilité des actions ou à leur effet à long terme.

Il est intéressant de noter que les modèles tendent à exagérer les risques. Par exemple, GPT-4 pourrait classer la suppression de l'historique d'une calculatrice vide comme une action critique. En même temps, certaines actions sérieuses, comme l'envoi d'un message important ou le changement de données financières, pourraient être sous-estimées par le modèle.


La précision de la prédiction du niveau d'impact global utilisant différents modèles. Illustration : Apple

Les résultats ont montré que même les meilleurs modèles comme GPT-4 Multimodal n'atteignent pas 60 % de précision dans la classification du niveau d'impact des actions dans l'interface. Ils ont particulièrement du mal à comprendre des nuances telles que la récupérabilité des actions ou leur impact sur d'autres utilisateurs.

En conséquence, les chercheurs ont tiré plusieurs conclusions : premièrement, des approches plus complexes et nuancées pour comprendre le contexte sont requises pour que les agents IA autonomes opèrent en toute sécurité ; deuxièmement, à l'avenir, les utilisateurs devront définir eux-mêmes le niveau de "prudence" de leur IA - ce qui peut être fait sans confirmation et ce qui est absolument interdit.

Cette recherche est un pas important vers la garantie que les agents intelligents dans les smartphones ne se contentent pas d'appuyer sur des boutons, mais comprennent également ce qu'ils font et comment cela pourrait affecter les humains.

Source : Apple