Перейти к основному содержимому

Grok 3 - новый виток в развитии ИИ

· 4 мин. чтения

Ссылка на первоисточник: Grok3 Launch

xAI, известная своими передовыми разработками в области искусственного интеллекта, анонсировала запуск новой линейки моделей Grok 3. Эти модели представляют собой значительный шаг вперед в направлении создания более интеллектуальных систем ИИ, подчеркивая необходимость постоянного масштабирования вычислительных ресурсов.

Что нового?

Компания Илона Маска xAI представила Grok 3 — семейство из четырёх больших языковых моделей (LLM), разработанных для расширения возможностей искусственного интеллекта. В эту линейку входят как модели с функцией рассуждения, так и без неё. Каждая модель доступна в полном размере и в уменьшенной версии (mini).

Доступность

Доступ к Grok 3 можно получить через подписку X Premium+ по цене $40 в месяц в США, а в других странах цены могут отличаться. Кроме того, Grok 3 будет представлен в новом сервисе под названием SuperGrok.

Текущие возможности

В настоящее время модели Grok 3 способны обрабатывать текстовые входные данные и генерировать текстовые выходные. Однако в ближайшие недели xAI планирует добавить поддержку аудиовхода и аудиовыхода.

Как это работает

Хотя компания xAI пока не поделилась подробностями об архитектуре Grok 3, количестве параметров, обучающих наборах данных и методах, уже известно несколько ключевых моментов:

  • Огромные вычислительные затраты
    Предобучение: для обучения Grok 3 было использовано в десять раз больше вычислительных ресурсов, чем для предыдущей версии — Grok 2.
    Инфраструктура: для обучения было задействовано огромное количество — 200,000 графических процессоров Nvidia H100, что вдвое превышает вычислительные мощности, которые, как сообщалось, использовала Meta для обучения Llama 4.

  • Стратегия обучения
    Обучение с подкреплением (RL): Grok 3 дополнительно обучалась с использованием RL, уделяя особое внимание задачам по математике и программированию. Этот метод помог модели развить способность к логическому рассуждению. Сокрытие знаний: некоторые маркеры рассуждения в Grok 3 намеренно скрыты, что затрудняет обратную разработку и копирование модели.

  • Улучшенные режимы вывода
    Grok 3 предлагает три режима инференции, которые позволяют вам задействовать больше вычислительных ресурсов для выполнения задач:
    Think: Этот режим предназначен для глубокого и структурированного мышления.
    Big Brain: Расширенный вариант режима Think, предоставляющий еще больше вычислительных мощностей.
    DeepSearch: Агент для веб-поиска, который создает подробные отчеты, аналогично инструментам Deep Research от OpenAI и Google.

Производительность и результаты

Семейство Grok 3 установило новые стандарты в решении задач по математике, науке и программированию, оставив позади множество популярных Large Language Models (LLM).

Модели без функции рассуждения

Модели Grok 3 и Grok 3 mini продемонстрировали впечатляющие результаты в стандартных тестах для LLM, опередив таких конкурентов, как Google Gemini 2 Pro, DeepSeek-V3, Anthropic Claude 3.5 Sonnet и OpenAI GPT-4o.

AIME 2024 (математика):

  • Grok 3: 52% точности
  • Grok 3 mini: 40% точности
  • Следующий лучший результат (DeepSeek-V3): 39% точности

Модели с функцией рассуждения

Модели Grok 3 Reasoning Beta и Grok 3 mini Reasoning, используя дополнительные вычислительные ресурсы при инференции, заняли лидирующие позиции в тестах, требующих сложных рассуждений.

GPQA (наука):

  • Grok 3 Reasoning Beta: 85% точности
  • Grok 3 mini Reasoning: 84% точности
  • Следующий лучший результат (OpenAI o3-mini с высоким уровнем усилий): 80% точности

Эти модели, оснащённые функцией рассуждения, продемонстрировали свою эффективность, превосходя такие признанные решения, как OpenAI o3-mini, OpenAI o1, Deepseek-R1 и Google Gemini 2 Flash Thinking, на множестве различных наборов данных.

Почему это важно

Grok 3 представляет собой значительный прорыв, особенно для молодой компании xAI, которой всего два года. Этот релиз наглядно демонстрирует, что увеличение вычислительных мощностей остается ключевым фактором в повышении эффективности искусственного интеллекта.

Эффект масштабирования. Исследования уже давно показывают, что производительность больших языковых моделей (LLM) напрямую зависит от объема обучающих данных и вычислительных ресурсов. Использование 200,000 графических процессоров H100 для Grok 3 полностью подтверждает этот принцип.

Инференция как конкурентное преимущество. Способность Grok 3 использовать дополнительные вычислительные мощности во время выполнения задач позволяет моделям динамически улучшать свои ответы, что значительно превосходит решения, которые полагаются только на статическое предобучение.