Ein Überblick über die Höhepunkte in der Welt der KI: OpenAI ändert die Funktionsweise des Atlas-Browsers, Reddit verklagt Perplexity wegen Daten-Scraping, Anthropic führt Claude Code im Browser ein und Meta führt einen sicheren Hub für KI-Agenten ein.

OpenAI bringt ChatGPT Atlas-Browser auf den Markt

OpenAI představilo ChatGPT Atlas, ein neuer Webbrowser, der ChatGPT und den Agentenmodus direkt integriert. KI kann Seiteninhalte verstehen, sich den Kontext über Sitzungen hinweg merken und Aufgaben ausführen, ohne dass der Nutzer die aktuelle Seite verlassen muss. Der Browser enthält eine optionale „Browser Memory“-Funktion, die es ChatGPT ermöglicht, Details von zuvor besuchten Seiten abzurufen, um eine persönlichere Unterstützung zu bieten; die Benutzer haben jedoch die Kontrolle darüber, welche Informationen gespeichert oder gelöscht werden. Atlas bietet auch eine Vorschau des Agentenmodus für kostenpflichtige Nutzer, die es ChatGPT ermöglicht, eigenständig Webrecherchen durchzuführen, Warenkörbe zu füllen oder Dokumente direkt im Browser zu erstellen. Atlas spiegelt die Bemühungen von OpenAI wider, sich in Richtung agentenbasierter KI-Systeme zu bewegen, die routinemäßige Datenverarbeitungsaufgaben übernehmen können, obwohl das Unternehmen Risiken wie Bugs und Anfälligkeit für bösartige Anweisungen einräumt. ChatGPT Atlas ist jetzt auf macOS für Free-, Plus-, Pro- und Go-Benutzer verfügbar; Versionen für Windows, iOS und Android sind in Kürze erhältlich.

DeepSeek testet OCR-Modell zur Textkomprimierung

DeepSeek vydal DeepSeek-OCR, ein visuell-linguales Modell, das Textdokumente in kompakte visuelle Darstellungen umwandelt und dabei deutlich weniger Token verwendet als der Originaltext. Das Modell erreicht 97% přesnosti bei der Komprimierung von Text mit einem Verhältnis von 10:1 und unter Beibehaltung 60% přesnost selbst bei einer Komprimierung von 20:1, indem der Text als Bilder gerendert und in visuelle Token kodiert wird, die die Sprachmodelle dann wieder in Text dekodieren. Im OmniDocBench-Benchmark übertrifft DeepSeek-OCR konkurrierende Modelle, die deutlich weniger Token verwenden - nur 100 Jetons pro Seite im Vergleich zu 256 bei GOT-OCR2.0 und weniger als 800 Token im Vergleich zu mehr als 6.000 bei MinerU2.0. Diese Komprimierungstechnik könnte eine effizientere Verarbeitung von langen Kontexten in großen Sprachmodellen ermöglichen. Der Code und die Modellgewichte sind öffentlich auf GitHub verfügbar.

Claude Code lanciert Webversion mit parallelen Agenten

Anthropic hat eine Web-Version veröffentlicht Claude Code, der es Entwicklern ermöglicht, mehrere Coding-Jobs gleichzeitig in verschiedenen GitHub-Repositories direkt über den Browser auszuführen. Der Dienst läuft auf einer von Anthropic verwalteten Cloud-Infrastruktur, wobei jeder Auftrag in in einer isolierten Sandbox-Umgebung, Wie bei den Kommandozeilen- und IDE-Versionen können Entwickler die Web-Oberfläche von Claude Code für Bugfixes, Routineaufgaben, Tests, Backend-Änderungen, Pull Requests und Dokumentation nutzen. Dieser Cloud-basierte Ansatz deutet auf eine Verlagerung hin zu KI-Agenten hin, die die Arbeit von Entwicklern in verwalteten Umgebungen unabhängig erledigen. Claude Code for Web ist jetzt in der Vorschau für Claude Pro und Max Abonnenten verfügbar.

Reddit verklagt Perplexity AI und andere Unternehmen wegen Datendiebstahls

Reddit hat eine Klage eingereicht gegen Perplexity AI und drei weitere Unternehmen - Oxylabs, AWMProxy und SerpApi - verklagt, weil sie angeblich Millionen von Nutzerkommentaren für kommerzielle Zwecke illegal heruntergeladen haben. In der Klage, die bei einem Bundesgericht in New York eingereicht wurde, werden die Unternehmen beschuldigt, die Anti-Scraping-Maßnahmen von Reddit zu umgehen und Inhalte aus Google-Suchergebnissen zu extrahieren, wenn der direkte Zugang gesperrt war. Reddit wandte eine neuartige Technik an: Es erstellte einen Testbeitrag, der nur von der Google-Suchmaschine gecrawlt werden konnte, und zitierte ihn dann, nachdem die Daten des Beitrags innerhalb weniger Stunden auf Perplexity erschienen waren, als Beweis. Die Klage unterstreicht die wachsenden Spannungen darüber, wie KI-Unternehmen Trainingsdaten beschaffen. Perplexity und die anderen beklagten Unternehmen bestreiten die Vorwürfe und haben erklärt, dass sie sich in der Klage verteidigen werden.

Meta und Hugging Face starten Hub für KI-Agentenumgebungen

OpenEnv Hub ist eine neue Community-Plattform, auf der Entwickler standardisierte Umgebungen für KI-Agenten erstellen, teilen und entdecken können. KI-Agentenumgebungen definieren die Tools, APIs, Logins und den Ausführungskontext, die ein Agent benötigt, um bestimmte Aufgaben in einer sicheren Sandbox-Umgebung auszuführen, die für Training und Einsatz geeignet ist. Der Hub wird in Kürze mit ersten Umgebungen an den Start gehen, die Entwickler testen können, und die OpenEnv-Spezifikation 0.1 wurde bereits für das Feedback der Community freigegeben. Diese Initiative befasst sich mit einer zentralen Herausforderung bei der Entwicklung von KI-Agenten: Große Sprachmodelle benötigen Zugang zu geeigneten Tools, aber die direkte Bereitstellung von Millionen von Tools ist weder sicher noch praktisch. Meta integriert OpenEnv in seine TorchForge RL-Bibliothek und arbeitet an der Erweiterung der Kompatibilität mit Open-Source-Projekten wie verl, TRL und SkyRL.

GigaBrain-0 nutzt synthetische Daten zum Trainieren von Robotern

Die Forscher präsentierten GigaBrain-0, ein visuell-linguistisches Handlungsmodell, das Roboter anhand synthetischer Daten trainiert, die von world modely, Das System generiert Trainingsszenarien, indem es das Aussehen von Objekten, ihre Standorte, Lichtverhältnisse und Kamerawinkel verändert, um vielfältigere Trainingsdaten zu erhalten, als die meisten Roboter durch Beobachtung in der realen Welt erhalten.„verkörperte Gedankenkette“Überwachung", um komplexe Aufgaben in Zwischenschritte zu unterteilen. Tests zu Manipulation, langen Aufgaben und mobiler Manipulation zeigten, dass GigaBrain-0 das Benchmark-Modell π0 um ein Vielfaches übertraf 10-30 procent . Tým také vydal GigaBrain-0-Small, eine abgespeckte Version, die auf Edge-Geräten bei vergleichbarer Leistung 10 Mal schneller läuft.

The Batch - DeepLearning.AI von Andrew Ng / gnews.cz - GH