Grok 3 - новый виток в развитии ИИ
Ссылка на первоисточник: Grok3 Launch
xAI, известная своими передовыми разработками в области искусственного интеллекта, анонсировала запуск новой линейки моделей Grok 3. Эти модели представляют собой значительный шаг вперед в направлении создания более интеллектуальных систем ИИ, подчеркивая необходимость постоянного масштабирования вычислительных ресурсов.
Что нового?
Компания Илона Маска xAI представила Grok 3 — семейство из четырёх больших языковых моделей (LLM), разработанных для расширения возможностей искусственного интеллекта. В эту линейку входят как модели с функцией рассуждения, так и без неё. Каждая модель доступна в полном размере и в уменьшенной версии (mini).
Доступность
Доступ к Grok 3 можно получить через подписку X Premium+ по цене $40 в месяц в США, а в других странах цены могут отличаться. Кроме того, Grok 3 будет представлен в новом сервисе под названием SuperGrok.
Текущие возможности
В настоящее время модели Grok 3 способны обрабатывать текстовые входные данные и генерировать текстовые выходные. Однако в ближайшие недели xAI планирует добавить поддержку аудиовхода и аудиовыхода.
Как это работает
Хотя компания xAI пока не поделилась подробностями об архитектуре Grok 3, количестве параметров, обучающих наборах данных и методах, уже известно несколько ключевых моментов:
-
Огромные вычислительные затраты
Предобучение: для обучения Grok 3 было использовано в десять раз больше вычислительных ресурсов, чем для предыдущей версии — Grok 2.
Инфраструктура: для обучения было задействовано огромное количество — 200,000 графических процессоров Nvidia H100, что вдвое превышает вычислительные мощности, которые, как сообщалось, использовала Meta для обучения Llama 4. -
Стратегия обучения
Обучение с подкреплением (RL): Grok 3 дополнительно обучалась с использованием RL, уделяя особое внимание задачам по математике и программированию. Этот метод помог модели развить способность к логическому рассуждению. Сокрытие знаний: некоторые маркеры рассуждения в Grok 3 намеренно скрыты, что затрудняет обратную разработку и копирование модели. -
Улучшенные режимы вывода
Grok 3 предлагает три режима инференции, которые позволяют вам задействовать больше вычислительных ресурсов для выполнения задач:
Think: Этот режим предназначен для глубокого и структурированного мышления.
Big Brain: Расширенный вариант режима Think, предоставляющий еще больше вычислительных мощностей.
DeepSearch: Агент для веб-поиска, который создает подробные отчеты, аналогично инструментам Deep Research от OpenAI и Google.
Производительность и результаты
Семейство Grok 3 установило новые стандарты в решении задач по математике, науке и программированию, оставив позади множество популярных Large Language Models (LLM).
Модели без функции рассуждения
Модели Grok 3 и Grok 3 mini продемонстрировали впечатляющие результаты в стандартных тестах для LLM, опередив таких конкурентов, как Google Gemini 2 Pro, DeepSeek-V3, Anthropic Claude 3.5 Sonnet и OpenAI GPT-4o.
AIME 2024 (математика):
- Grok 3: 52% точности
- Grok 3 mini: 40% точности
- Следующий лучший результат (DeepSeek-V3): 39% точности
Модели с функцией рассуждения
Модели Grok 3 Reasoning Beta и Grok 3 mini Reasoning, используя дополнительные вычислительные ресурсы при инференции, заняли лидирующие позиции в тестах, требующих сложных рассуждений.
GPQA (наука):
- Grok 3 Reasoning Beta: 85% точности
- Grok 3 mini Reasoning: 84% точности
- Следующий лучший результат (OpenAI o3-mini с высоким уровнем усилий): 80% точности
Эти модели, оснащённые функцией рассуждения, продемонстрировали свою эффективность, превосходя такие признанные решения, как OpenAI o3-mini, OpenAI o1, Deepseek-R1 и Google Gemini 2 Flash Thinking, на множестве различных наборов данных.
Почему это важно
Grok 3 представляет собой значительный прорыв, особенно для молодой компании xAI, которой всего два года. Этот релиз наглядно демонстрирует, что увеличение вычислительных мощностей остается ключевым фактором в повышении эффективности искусственного интеллекта.
Эффект масштабирования. Исследования уже давно показывают, что производительность больших языковых моделей (LLM) напрямую зависит от объема обучающих данных и вычислительных ресурсов. Использование 200,000 графических процессоров H100 для Grok 3 полностью подтверждает этот принцип.
Инференция как конкурентное преимущество. Способность Grok 3 использовать дополнительные вычислительные мощности во время выполнения задач позволяет моделям динамически улучшать свои ответы, что значительно превосходит решения, которые полагаются только на статическое предобучение.