Un resumen de lo más destacado en el mundo de la IA: OpenAI cambia el funcionamiento del navegador Atlas, Reddit demanda a Perplexity por escamoteo de datos, Anthropic lanza Claude Code en el navegador y Meta presenta un centro seguro para agentes de IA.
OpenAI lanza el navegador ChatGPT Atlas
Presentación de OpenAI ChatGPT Atlas, un nuevo navegador web que integra directamente ChatGPT y el modo agente. La IA puede entender el contenido de las páginas, recordar el contexto entre sesiones y realizar tareas sin que el usuario abandone la página actual. El navegador incluye una función opcional de „recuerdos del navegador“ que permite a ChatGPT recordar detalles de páginas visitadas anteriormente para ofrecer una asistencia más personalizada; sin embargo, los usuarios tienen el control sobre qué información se guarda o se elimina. Atlas también ofrece una vista previa en modo agente para los usuarios de pago, lo que permite a ChatGPT realizar de forma autónoma búsquedas en la web, rellenar carritos de la compra o compilar documentos directamente en el navegador. Atlas refleja los esfuerzos de OpenAI por avanzar hacia sistemas de IA basados en agentes que puedan encargarse de tareas informáticas rutinarias, aunque la empresa reconoce riesgos como fallos y vulnerabilidades ante instrucciones maliciosas. ChatGPT Atlas ya está disponible en macOS para usuarios Free, Plus, Pro y Go; próximamente habrá versiones para Windows, iOS y Android.
DeepSeek prueba un modelo OCR de compresión de texto
DeepSeek ha publicado DeepSeek-OCR, un modelo visio-lingüístico que convierte documentos de texto en representaciones visuales compactas utilizando un número significativamente menor de tokens que el texto original. El modelo consigue 97% precisión al comprimir texto en una proporción de 10:1 y mantiene Precisión 60% incluso con una compresión de 20:1 al representar el texto como imágenes y codificarlo en tokens visuales, que los modelos lingüísticos decodifican de nuevo en texto. En la prueba OmniDocBench, DeepSeek-OCR supera a los modelos de la competencia utilizando un número significativamente menor de tokens: sólo 100 fichas por página frente a los 256 de GOT-OCR2.0 y menos de 800 tokens frente a los más de 6.000 de MinerU2.0. Esta técnica de compresión podría permitir un procesamiento más eficiente de contextos largos en modelos lingüísticos de gran tamaño. El código y los pesos del modelo están a disposición del público en GitHub.
Claude Code lanza una versión web con agentes paralelos
Anthropic ha lanzado una versión web Código Claude, que permite a los desarrolladores ejecutar varios trabajos de codificación simultáneamente en distintos repositorios de GitHub directamente desde el navegador. El servicio se ejecuta en una infraestructura en la nube gestionada por Anthropic, y cada trabajo se ejecuta en en un entorno aislado, Al igual que con las versiones de línea de comandos e IDE, los desarrolladores pueden utilizar la interfaz web de Claude Code para corregir errores, tareas rutinarias, pruebas, cambios en el backend, pull requests y documentación. Este enfoque basado en la nube sugiere un cambio hacia agentes de IA que gestionan el trabajo de los desarrolladores de forma independiente en entornos gestionados. Claude Code para Web ya está disponible en versión preliminar para los suscriptores de Claude Pro y Max.
Reddit demanda a Perplexity AI y otras empresas por robo de datos
Reddit ha presentado una demanda contra Perplejidad AI y otras tres empresas -Oxylabs, AWMProxy y SerpApi- alegando que descargaron ilegalmente millones de comentarios de usuarios para uso comercial. La demanda, presentada ante un tribunal federal de Nueva York, acusa a las empresas de eludir las medidas anti-scraping de Reddit y extraer contenidos de los resultados de búsqueda de Google cuando el acceso directo estaba bloqueado. Reddit utilizó una técnica novedosa: creó un post de prueba que sólo podía ser rastreado por el motor de búsqueda de Google y, a continuación, después de que los datos del post aparecieran en Perplexity en cuestión de horas, lo citó como prueba. La demanda pone de manifiesto las crecientes tensiones en torno al modo en que las empresas de IA obtienen los datos de entrenamiento. Perplexity y las demás empresas demandadas niegan las acusaciones y han afirmado que se defenderán en el juicio.
Meta y Hugging Face lanzan un centro para entornos de agentes de IA
Centro OpenEnv es una nueva plataforma comunitaria en la que los desarrolladores pueden crear, compartir y descubrir entornos estandarizados para agentes de IA. Los entornos de agentes de IA definen las herramientas, las API, los inicios de sesión y el contexto de ejecución que necesita un agente para realizar tareas específicas en un entorno seguro y aislado que funcione para la formación y el despliegue. El Hub se lanzará en breve con entornos iniciales que los desarrolladores podrán probar, y ya se ha publicado la especificación OpenEnv 0.1 para que la comunidad aporte sus comentarios. Esta iniciativa aborda un reto clave en el desarrollo de agentes de IA: los grandes modelos lingüísticos necesitan acceso a herramientas adecuadas, pero exponer millones de herramientas directamente no es seguro ni práctico. Meta está integrando OpenEnv con su biblioteca TorchForge RL y trabajando para ampliar la compatibilidad con proyectos de código abierto como verl, TRL y SkyRL.
GigaBrain-0 utiliza datos sintéticos para entrenar robots
Los investigadores presentaron GigaCerebro-0, un modelo viso-lingüístico-accional que entrena robots utilizando datos sintéticos generados por modelos mundiales, El sistema genera escenarios de entrenamiento cambiando la apariencia de los objetos, su ubicación, las condiciones de iluminación y los ángulos de la cámara para obtener datos de entrenamiento más diversos que los que la mayoría de los robots obtienen de la observación en el mundo real.„cadena de pensamiento encarnada“para dividir tareas complejas en pasos intermedios. Las pruebas sobre manipulación, tareas largas y manipulación móvil mostraron que GigaBrain-0 superaba al modelo de referencia π0 en 10-30 por ciento . El equipo también ha publicado GigaBrain-0-Pequeño, una versión ligera que se ejecuta 10 veces más rápido en los dispositivos periféricos manteniendo un rendimiento comparable.
El lote - DeepLearning.AI por Andrew Ng / gnews.cz - GH