айтишнику.рф

Тесты помогают быстрее и дешевле учить ИИ писать код. Новая работа китайских ученых: TDD для обучения ИИ


Итак, при классическом обучении моделей есть этап Supervised Fine-Tuning, на котором люди вручную подготавливают датасет с примерами качественных ответов для ИИ. Собственно, эти примеры используются для до-обучения модели.

Проблема в том, что подготовка таких датасетов — их разметка, проверка и прочие этапы — требует участия человека, а это самый дорогой и ресурсоемкий процесс в обучении искусственного интеллекта.

В последнее время мы наблюдаем, что модели, обучаемые без ручной разметки, оказываются дешевле и обучаются быстрее, при таком же уровне качества. Прекрасный пример — DeepSeek R1-Zero, который был обучен исключительно на синтетических данных с использованием механизмов Reinforcement Learning, и обошелся в 25 раз дешевле, чем модели с аналогичным качеством.

В чем суть работы

Исследователи использовали ИИ для создания коллекции пар "[задача] + [тесты для её проверки]". Эта работа не требует больших интеллектуальных способностей ИИ, для написания тестов подходят даже простенькие модели.

Скажем, тест может использовать "наивный" алгоритм с полным перебором, и при этом качественно проверять правильные ли ответы выдает "основной" код.

В частности, используемая авторами методика привела к росту на 10 процентных пунктов производительности модели Llama-3.1-8B-Ins и росту на 5 процентных пунктов Qwen2.5-Coder-7B-Ins, сравняв ее по качеству с гораздо более крупной DeepSeek-V2.5 (236B параметров).

Ещё раз: модель в 7 миллиардов параметров стала выдавать качество модели в 236 миллиардов, в 33 раза большей (справедливости ради, DeepSeek V2.5 - это модель с архитектурой Mixture of Expers, и в работе участвует только 21 миллиард параметров, то есть фактический рост в 3 раза).

Кроме того, обучение с подкреплением, основанное как на модели вознаграждения, так и на тест-кейсах, позволило добиться повышения точности программирования в нескольких ключевых бенчмарках, таких как HumanEval, MBPP, BigCodeBench и LiveCodeBench. Применение RL привело к улучшению результатов на HumanEval-plus на 25% и MBPP-plus на 6% всего за 80 шагов оптимизации (!), что демонстрирует невероятный потенциал RL в обучении моделей программированию.

Авторы подчеркивают, ч

50 просмотров
0 комментариев
Последние

Комментариев пока нет