Обзор основных событий в мире ИИ: OpenAI меняет принцип работы браузера Atlas, Reddit подает в суд на Perplexity за соскабливание данных, Anthropic запускает Claude Code в браузере, а Meta представляет безопасный хаб для агентов ИИ.
OpenAI запускает браузер ChatGPT Atlas
OpenAI представила ChatGPT Атлас, новый веб-браузер, в котором напрямую интегрированы ChatGPT и режим агента. ИИ может понимать содержимое страниц, запоминать контекст в разных сессиях и выполнять задачи, не покидая текущей страницы. Браузер включает опциональную функцию „Память браузера“, которая позволяет ChatGPT вспоминать детали с ранее посещенных страниц для предоставления более персонализированной помощи; при этом пользователи могут контролировать, какая информация сохраняется или удаляется. Atlas также предлагает предварительный просмотр в режиме агента для платных пользователей, позволяя ChatGPT автономно проводить веб-исследования, заполнять корзины или составлять документы прямо в браузере. Atlas отражает усилия OpenAI по продвижению систем ИИ на основе агентов, которые могут выполнять рутинные вычислительные задачи, хотя компания признает риски, включая ошибки и уязвимости для вредоносных инструкций. ChatGPT Atlas уже доступен на macOS для пользователей Free, Plus, Pro и Go; версии для Windows, iOS и Android появятся в ближайшее время.
DeepSeek запускает пилотную модель OCR для сжатия текста
Компания DeepSeek выпустила DeepSeek-OCR, Визио-лингвистическая модель, которая преобразует текстовые документы в компактные визуальные представления, используя значительно меньшее количество лексем, чем исходный текст. Модель достигает 97% точность при сжатии текста в соотношении 10:1 и сохраняет Точность 60% даже при сжатии 20:1 за счет рендеринга текста в виде изображений и кодирования их в визуальные лексемы, которые языковые модели затем декодируют обратно в текст. В бенчмарке OmniDocBench DeepSeek-OCR превосходит конкурирующие модели, используя значительно меньшее количество лексем - всего лишь 100 жетонов на страницу по сравнению с 256 для GOT-OCR2.0 и менее 800 лексем по сравнению с более чем 6 000 для MinerU2.0. Эта техника сжатия может позволить более эффективно обрабатывать длинные контексты в больших языковых моделях. Код и веса моделей находятся в открытом доступе на GitHub.
Claude Code запускает веб-версию с параллельными агентами
Компания Anthropic выпустила веб-версию Код Клода, который позволяет разработчикам выполнять несколько заданий по кодированию одновременно в разных репозиториях GitHub прямо из браузера. Сервис работает на облачной инфраструктуре, управляемой Anthropic, при этом каждое задание выполняется в в изолированной среде "песочницы, Как и в версиях с командной строкой и IDE, разработчики могут использовать веб-интерфейс Claude Code для исправления ошибок, выполнения рутинных задач, тестирования, внесения изменений в бэкенд, запросов на исправление и документации. Такой "облачный" подход позволяет предположить переход к ИИ-агентам, которые будут самостоятельно справляться с работой разработчиков в управляемых средах. Claude Code for Web уже доступен в предварительной версии для подписчиков Claude Pro и Max.
Reddit подает в суд на Perplexity AI и другие компании за кражу данных
Reddit подал судебный иск против ИИ недоумения и еще три компании - Oxylabs, AWMProxy и SerpApi - утверждая, что они незаконно скачивали миллионы пользовательских комментариев для коммерческого использования. В иске, поданном в федеральный суд Нью-Йорка, компании обвиняются в том, что они обходили меры Reddit по борьбе со скрапингом и извлекали контент из результатов поиска Google, когда прямой доступ был заблокирован. Reddit использовал новую технику: он создал тестовый пост, который мог быть просмотрен только поисковой системой Google, а затем, после того как данные из этого поста появились на Perplexity в течение нескольких часов, привел его в качестве доказательства. Иск подчеркивает растущую напряженность в вопросе о том, как компании, занимающиеся разработкой искусственного интеллекта, получают данные для обучения. Perplexity и другие компании-ответчики отрицают обвинения и заявили, что будут защищать себя в судебном процессе.
Meta и Hugging Face запускают хаб для сред ИИ-агентов
OpenEnv Hub это новая платформа сообщества, где разработчики могут создавать, обмениваться и открывать стандартизированные среды для агентов ИИ. Среды для агентов ИИ определяют инструменты, API, логины и контекст выполнения, необходимые агенту для выполнения конкретных задач в безопасной, изолированной среде, которая подходит для обучения и развертывания. Хаб будет запущен в ближайшее время с первичными средами, которые разработчики смогут протестировать, а спецификация OpenEnv 0.1 уже выпущена для обратной связи с сообществом. Эта инициатива решает ключевую проблему в разработке агентов ИИ: большие языковые модели нуждаются в доступе к соответствующим инструментам, но открывать миллионы инструментов напрямую небезопасно и непрактично. Meta интегрирует OpenEnv со своей библиотекой TorchForge RL и работает над расширением совместимости с проектами с открытым исходным кодом, включая verl, TRL и SkyRL.
GigaBrain-0 использует синтетические данные для обучения роботов
Исследователи представили GigaBrain-0, Модель визуально-лингвистического действия, которая обучает роботов, используя синтетические данные, генерируемые мировые модели, Система генерирует сценарии обучения, изменяя внешний вид объектов, их расположение, условия освещения и углы обзора камеры, чтобы получить более разнообразные данные для обучения, чем те, которые роботы получают при наблюдении за реальным миром.„воплощенная цепь мыслей“ наблюдение для разделения сложных задач на промежуточные шаги. Тесты на манипуляции, длительные задачи и мобильные манипуляции показали, что GigaBrain-0 превзошел эталонную модель π0 на 10-30 процентов . Команда также выпустила GigaBrain-0-Small, облегченная версия, которая работает в 10 раз быстрее на устройствах с граничным доступом, сохраняя при этом сопоставимую производительность.
Партия - DeepLearning.AI by Andrew Ng / gnews.cz - GH