Un tour d'horizon des faits marquants dans le monde de l'IA : OpenAI modifie le fonctionnement du navigateur Atlas, Reddit poursuit Perplexity pour grattage de données, Anthropic lance Claude Code dans le navigateur, et Meta introduit un hub sécurisé pour les agents d'IA.

OpenAI lance le navigateur ChatGPT Atlas

OpenAI představilo ChatGPT Atlas, un nouveau navigateur web qui intègre directement ChatGPT et le mode agent. L'IA peut comprendre le contenu des pages, mémoriser le contexte d'une session à l'autre et effectuer des tâches sans que l'utilisateur ne quitte la page en cours. Le navigateur comprend une fonction optionnelle de „mémoire du navigateur“ qui permet à ChatGPT de se souvenir des détails des pages précédemment visitées afin de fournir une assistance plus personnalisée ; toutefois, les utilisateurs ont le contrôle sur les informations qui sont sauvegardées ou supprimées. Atlas propose également un mode agent pour les utilisateurs payants, permettant à ChatGPT d'effectuer de manière autonome des recherches sur le web, de remplir des paniers d'achat ou de compiler des documents directement dans le navigateur. Atlas reflète les efforts de l'OpenAI pour évoluer vers des systèmes d'IA basés sur des agents qui peuvent gérer des tâches informatiques de routine, bien que l'entreprise reconnaisse les risques, y compris les bogues et les vulnérabilités aux instructions malveillantes. ChatGPT Atlas est disponible dès maintenant sur macOS pour les utilisateurs Free, Plus, Pro et Go ; des versions pour Windows, iOS et Android sont à venir.

DeepSeek pilote un modèle OCR de compression de texte

DeepSeek vydal DeepSeek-OCR, Le modèle visio-linguistique permet de convertir des documents textuels en représentations visuelles compactes en utilisant beaucoup moins de tokens que le texte original. Ce modèle permet d'atteindre les objectifs suivants 97% přesnosti lors de la compression d'un texte à un taux de 10:1 et maintient 60% přesnost même avec une compression de 20:1, en rendant le texte sous forme d'images et en les encodant en jetons visuels, que les modèles de langage décodent ensuite en texte. Sur le benchmark OmniDocBench, DeepSeek-OCR surpasse les modèles concurrents en utilisant beaucoup moins de tokens - juste 100 jetons par page contre 256 pour GOT-OCR2.0 et moins de 800 tokens contre plus de 6 000 pour MinerU2.0. Cette technique de compression pourrait permettre un traitement plus efficace des contextes longs dans les grands modèles linguistiques. Le code et les poids des modèles sont accessibles au public sur GitHub.

Claude Code lance une version web avec des agents parallèles

Anthropic a publié une version web Claude Code, qui permet aux développeurs d'exécuter simultanément plusieurs tâches de codage dans différents dépôts GitHub, directement à partir du navigateur. Le service fonctionne sur une infrastructure en nuage gérée par Anthropic. dans un environnement isolé (sandbox), Comme pour les versions en ligne de commande et IDE, les développeurs peuvent utiliser l'interface web Claude Code pour les corrections de bogues, les tâches de routine, les tests, les modifications du backend, les demandes de retrait et la documentation. Cette approche basée sur le cloud suggère une évolution vers des agents d'intelligence artificielle qui gèrent le travail des développeurs de manière indépendante dans des environnements gérés. Claude Code pour le Web est maintenant disponible en avant-première pour les abonnés Claude Pro et Max.

Reddit poursuit Perplexity AI et d'autres entreprises pour vol de données

Reddit a intenté une action en justice contre Perplexity AI et trois autres sociétés - Oxylabs, AWMProxy et SerpApi - au motif qu'elles auraient téléchargé illégalement des millions de commentaires d'utilisateurs à des fins commerciales. La plainte, déposée devant le tribunal fédéral de New York, accuse les entreprises de contourner les mesures anti-scraping de Reddit et d'extraire le contenu des résultats de recherche de Google lorsque l'accès direct était bloqué. Reddit a utilisé une technique originale : il a créé un article test qui ne pouvait être exploré que par le moteur de recherche de Google, puis, lorsque les données de l'article sont apparues sur Perplexity dans les heures qui ont suivi, il les a citées comme preuves. L'action en justice met en lumière les tensions croissantes sur la manière dont les entreprises d'intelligence artificielle se procurent des données d'entraînement. Perplexity et les autres sociétés défenderesses nient les allégations et ont déclaré qu'elles se défendraient dans le procès.

Meta et Hugging Face lancent un centre pour les environnements d'agents d'IA

OpenEnv Hub est une nouvelle plateforme communautaire où les développeurs peuvent créer, partager et découvrir des environnements normalisés pour les agents d'intelligence artificielle. Les environnements d'agents d'IA définissent les outils, les API, les connexions et le contexte d'exécution dont un agent a besoin pour effectuer des tâches spécifiques dans un environnement sécurisé et en bac à sable qui fonctionne pour la formation et le déploiement. Le Hub sera bientôt lancé avec des environnements initiaux que les développeurs pourront tester, et la spécification OpenEnv 0.1 a déjà été publiée pour recueillir les commentaires de la communauté. Cette initiative répond à un défi majeur dans le développement d'agents d'intelligence artificielle : les grands modèles de langage doivent avoir accès à des outils appropriés, mais exposer directement des millions d'outils n'est ni sûr ni pratique. Meta intègre OpenEnv à sa bibliothèque TorchForge RL et travaille à étendre la compatibilité avec les projets open-source tels que verl, TRL et SkyRL.

GigaBrain-0 utilise des données synthétiques pour former des robots

Les chercheurs ont présenté GigaBrain-0, Le modèle visio-linguistique-action permet d'entraîner des robots à l'aide de données synthétiques générées par l'ordinateur de l'utilisateur. world modely, Le système génère des scénarios d'entraînement en modifiant l'apparence des objets, leur emplacement, les conditions d'éclairage et les angles de la caméra afin d'obtenir des données d'entraînement plus diversifiées que celles que la plupart des robots obtiennent par l'observation du monde réel.„Chaîne de pensée incarnée“Le modèle de supervision "GigaBrain" permet de diviser les tâches complexes en étapes intermédiaires. Les tests sur la manipulation, les tâches longues et la manipulation mobile ont montré que GigaBrain-0 a surpassé le modèle de référence π0 de 10-30 procent . Tým také vydal GigaBrain-0-Small, une version allégée qui s'exécute 10 fois plus vite sur les appareils périphériques tout en conservant des performances comparables.

The Batch - DeepLearning.AI par Andrew Ng / gnews.cz - GH