Le modèle d'IA Qwen2.5-VL d'Alibaba peut exécuter Booking.com sur Android et réserver des billets de Chongqing à Pékin (vidéo)

L'équipe Qwen d'Alibaba a annoncé la sortie d'une nouvelle gamme de modèles d'IA, Qwen2.5-VL, capables d'effectuer un certain nombre de tâches d'analyse de texte et d'image.
Voici ce que nous savons
Les modèles peuvent traiter des fichiers, comprendre des vidéos, compter des objets dans des images et contrôler des PC, ce qui est similaire au modèle qui fonctionne dans OpenAI Operator.
D'après les données de test, Qwen2.5-VL surpasse GPT-4 d'OpenAI, Claude 3.5 d'Anthropic et Gemini 2.0 Flash de Google dans la compréhension de vidéos, les mathématiques, l'analyse de documents et la réponse à des questions. Le modèle est capable d'analyser des graphiques et des tableaux, d'extraire des données à partir de scans de factures et de formulaires, et de "comprendre" des vidéos de plusieurs heures.

Résultats des tests de Qwen2.5-VL. Illustration : Alibaba
Une caractéristique intéressante de Qwen2.5-VL est sa capacité à interagir avec des logiciels sur des PC et des appareils mobiles. Une vidéo postée sur X montre un modèle Qwen2.5-VL lançant l'application Booking.com sur Android et réservant un billet d'avion de Chongqing à Pékin. Cependant, lors d'un test sur un ordinateur de bureau Linux, le modèle s'est avéré moins efficace, se limitant à changer d'onglet.
Ne manquez pas @Alibaba_Qwen 2.5 VL ! Malgré tout le battage médiatique autour de Deepseek, Qwen vient de sortir le meilleur Multimodal ouvert ! Qwen 2.5 VL est un modèle de langage de vision qui peut contrôler votre ordinateur, comme l'opérateur @OpenAI, extraire des informations structurées à partir de graphiques, et plus encore !
- Philipp Schmid (@_philschmid) 27 janvier 2025
TL;DR ;
3️⃣... pic.twitter.com/GeEGVdl0tI
Les modèles Qwen2.5-VL sont également soumis à certaines restrictions quant aux sujets abordés, en particulier dans Qwen Chat, en raison des contrôles de l'autorité chinoise de régulation de l'Internet, qui exigent le respect des "valeurs socialistes fondamentales".
LMAO Qwen 2.5 VL peut effectuer une utilisation informatique, hors de la boîte, en prenant l'opérateur OpenAI de plein fouet ! ? ??? pic.twitter.com/lwMECXzNSu
- Vaibhav (VB) Srivastav (@reach_vb) 27 janvier 2025
Les modèles Qwen2.5-VL sont disponibles à l'essai dans l'application Qwen Chat et sur la plateforme Hugging Face. Le modèle Qwen2.5-VL-72B dispose d'une licence spéciale qui nécessite une autorisation d'utilisation commerciale pour les entreprises ayant plus de 100 millions d'utilisateurs actifs mensuels.
Source : @_philschmid @_philschmid