引言
Сегодняшние большие языковые модели уже имеют возможность писать статьи, писать код и даже реализовывать сложные рабочие процессы агентов, однако, когда они сталкиваются с математической корректурой, им часто кажется, что им не хватает сил.
В традиционной математике модели нужно только «отвечать на конечное значение», но математическая логика доказательства другая.

Чтобы ответить на этот вопрос, мы открыли модель специально для математического моделирования и корректуры —— LongCat-Flash-Prover。

LongCat-Flash-Prover — автоформализация,草理制造(Эскиз)和成动电影(Доказательство)三大基清能力。在安全工作内容推理(Интегрировано с инструментами рассуждения, TIR) Strategy下,Пройден всего 72 раза, MiniF2F-Test пройден на 97,1%.,在事全开源Модель прувер中手机SOTA;在超难性赛级电影上上,Математическая олимпиада на скамейке 达 46,7% (180 баллов),аналогично выходит за рамки существующей модели с открытым исходным кодом.
В настоящее время LongCat-Flash-Prover полностью открыт, добро пожаловать в использование:
Что нас удивило, так это то, что через несколько дней после открытия модель не только привлекла внимание ИИ и крупных исследователей моделей, но и привлекла внимание математического мира. В день его выпуска мы получили приглашение к сотрудничеству от ведущей отечественной средней школы и совместно обсудили возможность разработки формализованного агента доказательства на основе этой модели.Искусственный интеллект уже не просто часть выполнения алгоритма, а действительно начал становиться «инфраструктурой» фундаментальных научных исследований.。
Почему формат должен быть заполнен?
Естественный язык мира неоднозначен, и его поэтапную проверку сложно провести. Чтобы решить эту проблему, математики и компьютерщики ввелиЯзык форматирования (如Lean4)。
Вы можете понимать Lean4 как своего рода «язык программирования». Точно так же, как код Python может быть переведен в Lean4 с помощью компилятора.Если модель может быть проверена на предмет правильности грамматики, логики и кода с помощью компилятора Lean4, это означает, что эта математика проверена на 100%.
我们可以教 AI 电影定理的?
AI 电影定理,最教教一个数学系新新,不能指望如一眼看穿答案,老要教如拆解数球。 Мы сделаем процесс доказательства ИИ 拳解的三用天生化推理атомной мощностью:
1. Автоформализация (Автоформализация) —— «电视题目»:先将自然语言的数学风校, точный перевод成Компьютер Lean4能看懂发动化揂迏
2. 草空电影(Черновики)——”写解题大纲”: Перед лицом сложных 定理,不急于一步写室。 Модель 会会先写一解草,把大题论拆解成函家小电影电影理理(лемма), основная логическая линия.

3. Доказательство производства (доказательства) —— «花全上面»: Наряду с 草空的思路, одношаговым шагом, 花全全旅游游戏电影,推述推演设计.
Чтобы позволить модели овладеть этими тремя навыками, мы разработали структуру «смешанной экспертной итерации» «инструментов интегрированного анализа» (TIR). Проще говоря, это комбинация различных экспертных моделей с этими атомарными возможностями, причем в одно- и многораундовой формах может осуществляться непрерывное тестирование и самокоррекция, от простого полного доказательства, постепенно переходящего к сложному «индуктивному черновому доказательству».
一, техника 亮点
1.1 Смешанные эксперты
В этой структуре мы стремимся объединить разных экспертов для синтеза на основе самоформализации, эскизов и доказательства этих трех атомарных возможностей, а также взаимного сочетания траектории рассуждения, а также выбрать высококачественные данные для дальнейшего улучшения производительности соответствующей экспертной модели.

Экспертная итерация в основном включает в себя два этапа:
Медленный старт, холодный стартМОДЕЛЬ ATF-32B: система TIR, система DPO, система автоматического формализации, модель ATF-32B. Официальная декларация. На основании этой декларации,我们手机LongCat-Flash-Thinking-2601 电影的高品的的是电影Отслеживание обратной связи с соответствующим инструментом проверки Lean4. На основе этих синтетических данных мы создали высококачественный набор данных о холодном запуске, выполнив дезактивацию, обеззараживание и отбор проб в зависимости от сложности и разнообразия. Поскольку разные экспертные модели происходят из разных семейств моделей, мы интегрируем эти функции в область применения смешанного SFT и получаем окончательную модель холодного старта.
Поэтапная итерация:На этапе итерации мы выбираем модель, полученную на этапе холодного запуска, в качестве новой экспертной модели. Траектории каждой формальной задачи рассуждения основаны на этой новой экспертной модели. Кроме того, мы также интегрируем большой объем общих данных, чтобы гарантировать, что модель обладает способностью к неформальному рассуждению. В каждом раунде мы будем проводить обучение SFT и RL, и после нескольких итераций можно получить модель LongCat-Flash-Prover.
1.2 Учебная программа 学习学习的TIR 陈迹 gesestis
В процессе синтеза данных сложно организовать совместную работу этих экспертов. Мы разработали рабочий процесс, показанный на следующем рисунке.

Каждая экспертная модель может одновременно формировать однопутную (без использования инструментов) и многопутевую (режим TIR), что обеспечивает разнообразие синтезируемых данных.
Чтобы модель могла динамически выбирать подходящие инструменты и стратегию доказательства в зависимости от сложности каждой проблемы, мы использовали своего рода метод обучения по учебной программе: 1) Начните с однопроходного синтеза, затем используйте многопроходный инструментальный синтез; 2) Пошаговый переход от создания полного доказательства к черновому доказательству.
Основной процесс синтеза заключается в следующем:
-
Сначала дано неофициальное заявление (即一个自然语语题论), затем эксперт по самоформализации 在单轮无工单轮无其杋工业杋工作来的一个Декларация. Мы используем сервер Lean4.和语义电视性打分手机来对打分手机来对打分手机手打分的打分手手手手手手手手手设计上语义的打分的打分的
-
Если это формальное объявление N 个 содержит правильные результаты, то можно напрямую получить эти правильные объявления; 如枯廓果报 Получите правильный режим деклараций МДП, объединив его с Lean4. Серверный сервер может работать в режиме реального времени, а также в случае необходимости использования сервера.
-
Основываясь на формальном утверждении, мы затем воспользуемся моделью Прувера, чтобы попытаться сгенерировать доказательство. Мы воспользуемся режимом полного доказательства один раз, чтобы обеспечить полный процесс доказательства. Аналогичным образом мы сгенерируем N результатов и воспользуемся сервером теорем Lean4, чтобы определить, прошло доказательство или нет.
-
Если сгенерированное N 个 Whole-Proof неверно, мы активируем режим Whole-Proof of TIR с помощью сервера теорем Lean4.
-
Если в режиме Whole-Proof, независимо от того, используется ли он как TIR или TIR, его невозможно доказать (обычно это какие-то сложные проблемы или проблемы, требующие более 1000 строк процесса доказательства), мы открываем стратегию Sketch-Proof;
-
Sketch中,主动一个Официальное заявление,Sketcher 最作门品先电影 N 个Sketch,каждый Sketcher содержит 电影待身昚个待说明瀌丄先电影N个 Эскиз кузова,我们手机最佳Модель TIR来报动时间设计语系和Теорема 丸先的Эскиз;
-
Для каждого эскиза мы снова используем экспертную модель Prover для выполнения доказательства в режиме полного доказательства для каждой леммы, весь процесс доказательства использует режим TIR.
На основе этих синтетических траекторий мы провели некоторую обработку данных, выборку разнообразия и контроль сложности.
1.3 Формат интеллектуальных инструментов
В нашей экспертной системе итераций и системе обучения RL они используют один и тот же набор интеллектуальных инструментов:
1. Экономичный сервер4: Мы развернули сервер Lean4 и использовали формат JSON сервера Lean4 в качестве информации обратной связи для проверки сгенерированного формального утверждения, эскиза и доказательства, а также обработали его: вставляя точку привязки в полное доказательство, оно напрямую сообщает модели неправильный фрагмент кода, а не простые матричные координаты, так что модель может избежать ошибки в оценке местоположения неправильного кода и повысить точность исправления.
2. Лингвистическое соглашение: Только сервер Lean4 может иметь проблему со взломом, например, моделью для создания правильного грамматического кода и изменения исходной проблемы. По этой причине наш LLMdger-as-迮的 означает проверку формального утверждения, сгенерированного моделью, с исходной задачей, если язык тот же.
3. Теорема совпадения: Когда модель генерирует эскиз или доказательство, необходимо убедиться, что цель доказательства теоремы модели не может быть изменена; некоторые незначительные изменения символов могут привести к изменению всей проблемы доказательства.
4. Проверка легальности:我们下载一个9种作是作式的 Доказательства поведения,这个电影电影可以下载可以下载的手机Формальный Декларация、设计作作正视符 #exit、Внедрение несуществующей научной или недоказуемой гипотезы путем добавления макроса, разработки, синтаксиса, обозначений, попытки обойти ошибки компиляции и т. д. означает доступ к серверу Lean4 и предоставление доказательства прохождения обратной связи.

1.4 Алгоритм HisPO
Для обучения на этапе RL используется режим TIR, мы основаны на системе обучения LongCat-Flash-Thinking, разработанной DORA.
В процессе обучения мы наблюдаем два фактора, влияющих на стабильность модели MoE: Устаревание. Для Diff мы оцениваем новую стратегическую модель в механизме обучения и механизме с учетом важности выборки импорта и выборки отчета об импорте. По сравнению с GRPO, в дополнение к настройке среднего значения последовательности-токена-среднего, мы в основном вводим стратегию многоуровневой маскировки для прямого устранения нестабильного токена.

Сэнсэйл Ластерн Маскировка: Сначала мы оцениваем обучающую разницу всех токенов, вычисляя среднее геометрическое отношения IS. Если для всей последовательности разница превышает определенный диапазон, мы считаем, что это оказывает существенное влияние на стабильность тренировки и приведет к удалению последовательности.
Маркер маскирующего слоя: В оставшейся последовательности мы удалим токены с несовпадающими токенами, чтобы гарантировать, что оставшиеся токены не повлияют на стабильность.
Уровень токена. Контроль устаревания.: Для токена маскировки, который зарезервирован на уровне токена после обработки, мы будем учитывать стандартные стандарты отсечения и устаревания токена, чтобы гарантировать, что ширина предела маскирования обновляется в определенном диапазоне, обеспечивая тем самым стабильность обучения.
1.5 Интересное открытие: ИИ также будет показывать «作弊»
В процессе обучения мы наблюдали очень интересное явление:AI Чтобы получить высокую оценку, научитесь «作张».

Если вы полагаетесь только на компилятор Lean4 в качестве судьи, модель иногда будет модифицироваться путем изменения исходного названия, и вы сможете ее использовать. #exit), даже если его не существует в открытом доступе, он получит отзыв о «доказательстве прохождения»
Чтобы исправить такое поведение «芬小小旅», мы не только представили LLM в качестве судьи для проверки «единогласия 语义», но также специально разработали бережливый 4 уровень закона слова и анализатор грамматики.
二、экспериментальное заключение
- Задачи самоформализации: В задаче автоматической формализации LongCat-Flash-Prover показал наилучшие результаты во всех тестах производительности автоматической формализации; особенно в тесте MiniF2F и тесте мы получили 100% оценку. Благодаря улучшению TIR производительность улучшилась до 14%.

- Чрезвычайно высокая эффективность выборки (малый бюджет, высокая производительность): Раньше часто приходилось опробовать модель, чтобы доказать, что это сложный вопрос. А после объединения LongCat-Flash-Prover с инструментами его можно интегрировать с TIR.Всего за 72 попытки набор данных MiniF2F-Test достиг показателя успешности 97,1%.,Обновлена уже известная модель SOTA с открытым исходным кодом.

- “打草程” действительно хорош: Эксперимент доказательство,在下载电视安装下下,Применить»草空电视(Sket ch)”将题论拆解的南理,能设电影电影电影电影内容内容内容内容。

- 攻克超难性赛级电影: В высококлассных тестах MathOlympiad-Bench, ProofNet, ProverBench и PutnamBench модель достигла 46,7%、%、52,70%、52,70%、.

三, заключение
От «答案是名对» до «каждый шаг может быть проверен», LongCat-Flash-Prover больше не удовлетворяется выводом одного значения, а скорее, как один математический исследователь, из общедоступных исследований, с проверяемым компьютером языком для завершения доказательства завершения.
Мы считаем, что когда ИИ действительно научится «доказывать», а не просто «угадывать ответы», можно стать партнером математических исследователей, преподавателей и учащихся — он сможет не только помогать переводить документы, проверять, но также открывать новые способы доказательства и даже участвовать в исследовании математических проблем.
в настоящее время,LongCat-Flash-Prover уже заполнен。 Мы надеемся, что академический мир и сообщество будут вместе, дадут возможность проводить исследования дальше, пусть каждый раз у математического исследования будет свой путь, по которому нужно идти.
四、开源
🚀 Добро пожаловать, чтобы испытать и обсудить:
| Следуйте 「美团报电机」微信公式号(meituantech), читайте больше о технологиях 干货!
| Этот текст от технической команды, авторство предназначено для некоммерческих целей. Добро пожаловать на передачу или использование этого контента для обмена.