OpenAI сделала ChatGPT 5.5 Instant новым стандартом. Что в нём лучше и чем это подтверждено

·

·

Просмотров: 18

OpenAI* официально включила ChatGPT 5.5 Instant*, как модель по умолчанию для ChatGPT, заменив предыдущую 5.3 Instant. За этим решением стоит не только маркетинг, но и заметные приросты по «жёстким» метрикам: от снижения галлюцинаций до лучшей работы в сложных рабочих сценариях.

Сама модель GPT-5.5 была представлена в конце апреля в официальном посте OpenAI, как «самый мощный на сегодня агентный и кодовый» флагман компании. В нём подчёркивается, что GPT-5.5 строился не только под абстрактные экзамены, а под сценарии, где модель должна планировать, работать с инструментами и выдерживать длинные, ветвящиеся сессии, от программирования до автоматизации рутинных задач.

Меньше галлюцинаций на «опасных» темах

Главный аргумент в пользу перехода на 5.5 Instant — это резкое снижение выдуманных фактов. Внутренние тесты OpenAI* показывают:

  • на «высоких» запросах (медицина, право, финансы) 5.5 Instant даёт на 52,5% меньше галлюцинированных утверждений, чем 5.3 Instant;
  • в сложных диалогах, которые пользователи ранее отмечали как неточные, количество неправильных фактических ответов снизилось на 37,3%.

Отдельно подчёркивается рост качества на медицинском бенчмарке HealthBench: 5.5 Instant поднимается с 49,6 до 51,4 балла, улучшая точность ответов на реальные медицинские вопросы. На профессиональной подвыборке HealthBench Pro модель обеспечивает корректные ответы примерно в 38,4% случаев, что важно, учитывая популярность запросов по здоровью у массовой аудитории.

Прирост по бенчмаркам и «агентным» задачам

Полный GPT-5.5 (на котором основан Instant) демонстрирует ощутимый рост на профильных тестах, где проверяется способность модели выполнять длинные, многошаговые задачи:

  • Terminal-Bench 2.0 (сложные тесты команд) — где 82,7% у GPT-5.5 против 75,1% у GPT-5.4;
  • OSWorld-Verified (операции в реальных десктопных окружениях) — 78,7% у GPT-5.5 против 75,0% у GPT-5.4;
  • Toolathlon (использование инструментов и API) — 55,6% против 54,6%;
  • FrontierMath (сложная математика) — от 51,7% до 35,4% по разным уровням, с явным улучшением относительно GPT-5.4.

В независимых сравнениях с другими моделями GPT-5.5 стабильно оказывается впереди Claude Opus 4.7* и Gemini 3.1 Pro* на ряде композитных бенчмарков (GDPval, OSWorld, Toolathlon).

Это подтверждает, что прирост не только внутри линейки OpenAI, но и относительно конкурентов.

Контекст, скорость и цена

С точки зрения инфраструктуры GPT-5.5 повышает планку по контексту и остаётся достаточно быстрым для повседневного использования:

  • контекстное окно GPT-5.5 достигает 1 млн токенов против 400 тыс. у GPT-5.3-Codex, что критично для больших кодовых баз и длинных документов;
  • при этом OpenAI заявляет, что Instant-вариант сохраняет задержку на уровне GPT-5.4, а экономит токены за счёт более компактных и точных ответов в кодовых и агентных задачах.

Цена выросла: по данным, входные токены у GPT-5.5 ощутимо дороже, чем у GPT-5.3-Codex, а выходные почти вдвое дороже. Но OpenAI делает ставку на то, что более высокая точность и меньший объём лишних токенов компенсируют эту разницу в реальных сценариях.

Суммарно GPT-5.5 Instant, это не «косметическое обновление», а сдвиг в сторону более надёжной, менее галлюцинирующей модели, которая лучше держит сложные рабочие процессы и длинные диалоги. Для конечных пользователей это означает более безопасные ответы по чувствительным темам, для разработчиков, это в первую очередь возможность сильнее полагаться на стандартный Instant-слой, а не сразу уходить в тяжёлые и дорогие версии GPT-5.5.


*Продукты компании OpenAI (ChatGPT), Claude, Gemini — официально недоступны на территории РФ.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Бесплатно

После регистрации вы получите ГАЙД «7 способов заработка на нейросетях с примерами».

Бесплатно

Внутри бесплатный курс о том, как пользоваться нашим ботом.