ИИ-агенты вытесняют программистов: OpenAI и Anthropic выпустили GPT-5.3 и Opus 4.6

·

·

Просмотров: 155

На рынке нейросетей наступил «день X». Лидеры индустрии, Anthropic* и OpenAI*, выбрали тактику синхронного удара: компании минута в минуту представили свои самые мощные кодинг-модели — Claude Opus 4.6* и GPT-5.3-Codex*. Это событие подводит черту под эпохой чат-ботов. Начинается время автономных агентов.

Claude Opus 4.6*: лидер по вайб-кодингу

Разработку Anthropic* уже прозвали интеллектуальным рекордсменом. Модель показала результат 82,7% в тесте SWE-bench. Это абсолютный максимум в написании кода.

Главные отличия:

  • Контекст на 1 млн токенов. В нейронку можно загрузить не фрагмент кода, а весь проект целиком вместе с документацией.
  • Гибкое мышление. Claude* решает ответить сразу или «задуматься» над сложной логикой. Это экономит лимиты, а результаты получаются более точные.
  • Работа с MS Office. Opus 4.6* научился собирать финансовые модели в Excel и верстать презентации в PowerPoint без помощи человека.
  • Человеческая логика. В тестах на абстрактное мышление ARC-AGI 2 Opus 4.6* набрал 68,8%, что соответствует уровню взрослого человека.

GPT-5.3-Codex: марафонец в операционной системе

OpenAI* выкатила специализированную версию Codex раньше, чем обычную GPT-5.3*. Ставку сделали на автономность внутри Windows, macOS и Linux.

Главные отличия:

  • Длительные сессии. Нейросеть работает над проектом до семи часов подряд. Она планирует шаги и пользуется системными инструментами без участия людей.
  • Лидерство в DevOps. В тестах Terminal Bench модель набрала 77,3% и обошла Opus 4.6*. Это делает её лучшим инструментом для настройки серверов и работы с бэкендом.
  • Скорость и безопасность. GPT-5.3* работает на четверть быстрее предшественников и на лету находит дыры в защите софта.

Битва цифр: кто сильнее

Пока наблюдается паритет. Opus 4.6* лидирует в том, что решает глубокие аналитические задачи и находит информацию. А GPT-5.3* остаётся фаворитом в компьютерном зрении и скорости манипуляций. При этом обе модели буксуют в тесте SWE-bench verified. Похоже, ИИ упëрся во временный «потолок» в чистом написании кода.

Чего ждать дальше

Индустрия замерла в ожидании «ответа из Китая». Предположительно к 17 февраля, к Лунному Новому году, выйдет DeepSeek V4. По мнению экспертов, архитектура памяти Engram позволит модели мгновенно находить нужные куски кода, что оставит американских гигантов позади.

Google* тоже не остаётся в стороне. Несмотря на недавнее обновление Gemini 3*, эксперты ждут версии 3.5 или Pro-модели с усиленной логикой, чтобы не проиграть в гонке агентов.

Рынок ИИ изменился: выпуск агентских моделей раньше обычных чатов — сигнал смены приоритетов бигтеха. Индустрия переходит от «умных собеседников» к созданию автономных систем, где способность ИИ действовать внутри программ важнее умения просто поддерживать беседу. ChatGPT* в привычном виде становится историей. Теперь ИИ — не просто собеседник, а цифровой сотрудник, который нацелен на автономное решение задач и измеримый результат.


*Примечание: Сервисы Claude, OpenAI (ChatGPT) и Gemini официально недоступны на территории РФ.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Бесплатно

После регистрации вы получите ГАЙД «7 способов заработка на нейросетях с примерами».

Бесплатно

Внутри бесплатный курс о том, как пользоваться нашим ботом.