DeepSeek V3 или Qwen2.5-Max? Разработчики из Alibaba рассказали о своей последней языковой ИИ-модели

Успех продукта от DeepSeek привлек внимание ИИ-сообщества к крупномасштабным моделям с MoE-архитектурой.

Изображение из блога Qwen

Команда Qwen, разработчики искусственного интеллекта в китайской группе Alibaba, представила характеристики Qwen2.5-Max, своей самой мощной языковой ИИ-модели. Посты в соцсетях и блоге вышли на фоне ажиотажа вокруг новой модели «дешевого, но эффективного ИИ» от китайского стартапа DeepSeek.

Успех DeepSeek V3 привлек внимание ИИ-сообщества к крупномасштабным моделям Mixture-of-Experts, поясняют в Qwen. Напомним, MoE-архитектура позволяет активировать только часть параметров на каждом этапе обработки данных, что повышает эффективность и производительность модели.

Qwen2.5-Max

Компания разработала собственную большую языковую модель Qwen2.5-Max с MoE-архитектурой. Она была предварительно обучена более чем на 20 трлн токенов и дообучена с использованием методов Supervised Fine-Tuning (SFT, контролируемая тонкая настройка – под этим подразумевается адаптация предварительно обученной модели под конкретные задачи) и Reinforcement Learning from Human Feedback (RLHF, обучение с подкреплением через обратную связь от человека).

Кто кого?

Разработчики сравнили Qwen2.5-Max с ведущими моделями искусственного интеллекта (как базовыми, так и дообученными) на основе ряда показателей, представляющих значительный интерес для ИИ-сообщества. В числе этих бенчмарков:

MMLU-Pro (результат тестирования знаний для решения задач университетского уровня);
LiveCodeBench (возможности в программировании);
LiveBench (общие возможности);
Arena-Hard (согласованность с человеческими предпочтениями);
GPQA-Diamond (результаты в усложненном тесте в нескольких научных областях, на вопросы которого эксперты в основном отвечают правильно, а высокообразованные неэксперты – в основном неправильно, несмотря на разрешенный доступ в Интернет).

На основе своих изысканий разработчики пришли к выводу, что производительность Qwen2.5-Max «конкурентоспособна» в сопоставлении с ведущими дообученными моделями ИИ (то есть теми, которые уже можно непосредственно использовать в чатах или программировании), а по ряду бенчмарков превосходит нашумевшую DeepSeek V3, например по Arena Hard, LiveBench, LiveCodeBench, GPQA-Diamond.

Сравнение дообученных моделей. Диаграмма из блога Qwen

Эксперты также провели анализ по базовым (предварительно обученным) моделям, хотя не по всем продуктам это было возможно, и заключили, что продукт от Qwen демонстрирует «значительные преимущества в большинстве бенчмарков», например в сравнении с той же DeepSeek V3.

Сравнение базовых моделей. Диаграмма из блога Qwen

«Мы верим, что улучшения в техниках дообучения выведут следующую версию Qwen2.5-Max на новый уровень», - пишут разработчики.

Они подчеркивают, что стремятся «улучшать способности больших языковых моделей к мышлению и рассуждению с помощью инновационного применения масштабированного обучения с подкреплением». По словам команды Qwen, это открывает путь к тому, чтобы ИИ переступил границы человеческого интеллекта для исследования неизведанных областей знаний и понимания.

Тест-драйв

API модели Qwen2.5-Max доступен через Alibaba Cloud, а пользователям предлагают опробовать Qwen2.5-Max в чат-боте Qwen Chat (нужно выбрать там соответствующую вкладку).

На днях в Qwen также представили новую флагманскую визуально-языковую модель Qwen2.5-VL, ее возможности также можно исследовать в соответствующей вкладке чат-бота.

Asya Shalimova 31 июля в 14:13