айтишнику.рф

OLMo 2 32B устанавливает новый стандарт для моделей LLM с открытым исходным кодом

Новая языковая модель с открытым исходным кодом достигла производительности, сопоставимой с ведущими коммерческими системами, при сохранении полной прозрачности. Институт искусственного интеллекта Аллена (Ai2) объявил , что его модель OLMo 2 32B превосходит как GPT-3 .5-Turbo, так и GPT-4o mini, а также сделал ее код, данные обучения и технические подробности общедоступными.

Модель выделяется своей эффективностью, потребляя всего треть вычислительных ресурсов, необходимых аналогичным моделям, таким как Qwen2.5-32B . Это делает ее особенно доступной для исследователей и разработчиков, работающих с ограниченными ресурсами.

Команда разработчиков использовала трехфазный подход к обучению. Сначала модель изучила базовые языковые шаблоны из 3,9 триллионов токенов, затем изучила высококачественные документы и академический контент и, наконец, освоила следование инструкциям с использованием фреймворка Tulu 3.1, который сочетает в себе контролируемые и подкрепляемые методы обучения.

Для управления процессом команда создала OLMo-core, новую программную платформу, которая эффективно координирует несколько компьютеров, сохраняя при этом прогресс обучения. Фактическое обучение проходило на Augusta AI, суперкомпьютерной сети из 160 машин, оснащенных графическими процессорами H100, достигая скорости обработки более 1800 токенов в секунду на графический процессор.

Диаграмма рассеяния с логарифмической осью x: сравнение тенденций производительности (FLOP) различных аппаратных ускорителей ИИ, последние модели в правом верхнем углу.
Хотя Qwen2.5 и Gemma 3 демонстрируют лучшую среднюю производительность в тестах, чем OLMo 2 32B, Alibaba и Google опубликовали только весовые коэффициенты своих моделей, а не полные реализации с открытым исходным кодом. 

В то время как многие проекты AI, такие как Llama от Meta , заявляют о статусе с открытым исходным кодом, OLMo 2 соответствует всем трем основным критериям: публичный код модели, веса и данные обучения. Команда опубликовала все, включая набор данных обучения Dolmino , что обеспечивает полную воспроизводимость и анализ.

«С небольшим прогрессом каждый сможет проводить предварительное обучение, промежуточное обучение, постобучение — все, что необходимо, чтобы получить модель класса GPT-4 в своей области. Это серьезный сдвиг в том, как открытый искусственный интеллект может развиваться в реальные приложения», — говорит Натан Ламберт из Ai2.

Это основано на их более ранней работе с Dolma в 2023 году, которая помогла создать основу для обучения AI с открытым исходным кодом. Команда также загрузила различные контрольные точки, т. е. версии языковой модели в разное время во время обучения. Статья, выпущенная в декабре вместе с версиями 7B и 13B OLMo 2, предоставляет больше технической информации.

Разрыв между открытыми и закрытыми системами AI сократился примерно до 18 месяцев, согласно анализу Ламберта . В то время как OLMo 2 32B соответствует Gemma 3 27B от Google в базовом обучении, Gemma 3 показывает более высокую производительность после тонкой настройки, что указывает на возможности для улучшения методов постобучения с открытым исходным кодом.

Команда планирует улучшить логическое обоснование модели и расширить ее возможности для обработки более длинных текстов. Пользователи могут протестировать OLMo 2 32B через Chatbot Playground от Ai2.

Хотя в январе Ai2 также выпустила более крупную модель Tülu-3-405B , которая превосходит GPT-3.5 и GPT-4o mini, Ламберт поясняет, что она не является полностью открытой, поскольку лаборатория не принимала участия в ее предварительном обучении.

3 просмотра
0 комментариев
Последние

Комментариев пока нет