美团 выпущен на основе N-граммы. Модель 更多: новая модель со встроенным расширением, реализация высокой эффективности MoE.

Традиционная архитектура MoE обычно улучшает возможности модели за счет увеличения количества экспертов, но по мере увеличения числа экспертов могут возникнуть такие проблемы, как снижение предельного дохода и усиление системной коммуникации. Благодаря всестороннему анализу и экспериментам команда LongCat обнаружила, что встраивание расширения позволяет добиться более высокой производительности по сравнению с экспертами по расширениям.

Основываясь на этих знаниях, мы официально запускаем LongCat-Flash-Lite — версию с 68500 миллионами параметров, и каждый раз активируется только 2900-4500 миллионов параметров. Используя более 30 миллиардов эффективных параметров для слоя внедрения, LongCat-Flash-Lite не только превосходит линейную модель MoE с эквивалентными параметрами, но также демонстрирует выдающуюся конкурентоспособность по сравнению с существующими моделями того же масштаба, особенно в области интеллекта и кода, и опирается на YARN. Технология может поддерживать контекст до 256 КБ, эффективно обрабатывать длинные документы, крупномасштабный анализ кода и т. д. сценарии. В то же время модель основана на встроенной расширенной оптимизации приложений и системного уровня, что позволяет значительно повысить эффективность модели при типичной нагрузке на вход 4 КБ, выход 1 КБ, LongCat API может обеспечить скорость генерации токенов 500-700/с.

01 更优的手机フィフィック: От «堆标南» до «前最合»

Основная функция слоя внедрения N-грамм — улучшить способность модели фиксировать язык в локальном контексте. С помощью функции 哈希 последовательность, состоящая из текущего токена и предшествующих ему N-1 токенов, отображается в целый вектор внедрения N-граммы и объединяется с базовым вектором внедрения токена. Например, когда модель видит «команду ввода терминала», ее не будут путать с «открытым файлом» в повседневной жизни, но она может точно заблокировать «команду ввода терминала» в этой сцене, значительно повышая точность понимания языка.

В процессе генерации векторов внедрения N-грамм ключевой задачей является избежание коллизий, то есть разные последовательности N-грамм сопоставляются с одним и тем же вектором. Поэтому команда LongCat приняла два ключевых решения:

子表电视与линейная проекция: Разделите большую таблицу встраивания N-грамм на несколько подтаблиц и отдельно выполните преобразование линейной проекции, что может значительно снизить вероятность коллизий.
词汇表大小避坑:Размер таблицы встраивания N-грамм требует тщательного проектирования, чтобы снизить частоту столкновений. Кроме того, за счет внедрения технологии внедрения усиления (如在在成动发动剧分商和归一化) он гарантирует, что лингвистический сигнал, обеспечиваемый слоем внедрения, не будет утоплен в остаточном соединении сети глубокого уровня вниманием выходного модуля, тем самым обеспечивая эффективность его вклада во весь процесс прямого распространения.

02 Превосходная эффективность: 三重реализация оптимизации 极致流式

Слой внедрения N-грамм может не только улучшить возможности модели, его структурные характеристики также открывают новое направление для ускорения анализа. Хотя общее количество параметров модели составляет 685 миллиардов, но с помощью механизма динамической активации каждый раз активируется только 29 ~ 45 миллиардов параметров.

интеллектуальные параметры распределения: Мы поместим 31,4 млрд параметров (46% от общего числа параметров) в слой внедрения N-грамм. По сравнению с простым увеличением количества экспертов MoE, эта схема может эффективно сократить взаимодействие между экспертными модулями и время открытия, а также выиграть от сложности поиска уровня внедрения O (1), избегая линейного увеличения вычислений, вызванного расширением параметров.
Специальная оптимизация кэша и ядра: Мы разработали механизм выделенного кэша N-gram Cache (вдохновленный KV Cache), управляем идентификатором N-грамм непосредственно на устройстве графического процессора и реализуем сложную логику динамической настройки в рамках системы для достижения синхронизации с низкой скоростью открытия и значительного уменьшения задержки ввода-вывода встроенного поиска. В то же время за счет настройки ядра CUDA и обширного слияния ядра (AllReduce+Residual Add+RMSNorm, Logits Router Softmax+TopK+Scaling fusion) и технологии PDL (запуск зависит от программирования) и т. д. можно повысить уровень загрузки графического процессора, уменьшить зазор при запуске ядра.
Сотрудничать: Чтобы в полной мере воспользоваться преимуществами глубины активации, мы скоординируем ее со стратегией декодирования с проверкой глубины. Благодаря трехэтапному процессу приведения мы увеличили фактический размер пакета, использовали характеристики низкого общего ввода активации и в то же время для чувствительных к задержке характеристик 草案山色 (черновая модель) позволили ему использовать обычный слой внедрения, чтобы избежать накладных расходов на поиск N-грамм, что еще больше повышает производительность обработки.

Таким образом, посредством переназначения параметров, выделенного кэша и оптимизации ядра, исключения открытой системы и глубокой координации стратегии декодирования, LongCat-Flash-Lite реализует вертикальную оптимизацию системы от структуры модели до среды выполнения, и, наконец, теоретические преимущества, полученные от внедрения N-граммы, эффективно преобразуются в высокую пропускную способность и практические рассуждения с низкой задержкой.

03 производительность: передовые интеллектуальные инструменты и возможности программирования

LongCat-Flash-Lite демонстрирует ведущую производительность в использовании интеллектуальных инструментов и задач программирования: τ²-Bench очень продвинут в трех основных отраслевых сценариях, в области программирования он охватывает все возможности соединения и превосходную производительность в задачах восстановления кода, выполнения терминала, многоязычной разработки и т. д.

интеллектуальное выполнение задач

На основе оценки сложных инструментов, используемых при выполнении рабочего процесса, выдающиеся характеристики модели: – τ²-Банковская индустрия: телекоммуникации (72,8 балла), розничная торговля (73,1 балла), авиация (58,0 балла). Общий сценарий VitaBench: Версия 7.0 опережает модель сравнения, подтверждая, что она может использовать практические инструменты в разнообразных реальных задачах.

производительность задачи кода

На основе измерения практических навыков программирования модель демонстрирует сильные способности к решению проблем:

ремонт кода（SWE-Bench）: Показатель точности 54,4% является ведущим по сравнению с моделью того же масштаба, что доказывает ее эффективность в решении реальных проблем разработки программного обеспечения (исправление ошибок, реализация характеристик).
выполнение команды терминала (TerminalBench):33,75°. Время выполнения 15-20 минут по сравнению с моделью, что свидетельствует о высокоточном понимании рабочего процесса разработчика.
多语语学里设计(SWE-Bench Multilingual):Показатель точности 38,10% показывает лучшую способность к обобщению между языком программирования и экологией программного обеспечения.

Общие знания и способности

Модель обеспечивает сбалансированную производительность при комплексной оценке:

комплексные знания (MMLU):85,52 分, 与Gemini 2.5 Flash-Lite (84,68) относительно.
中文评论(C-Eval и CMMLU): 电影电影86,55分与82,48分,在中国电影中安全下载的分分。
Сложность (MMLU-Pro, GPQA-Diamond)Производительность: от 78,29 до 66,78, демонстрирующая способность решать междисциплинарные проблемы высокого уровня.
数学推理(MATH500, AIME):在天生(96,80%))与科动赛级数学问题(AIME24:72,19; AIME25:63.23）上均手机安健，集长多步推演。

Исполнение 轻量, 不 «轻»: 开源与意总, 即刻发动

Практика LongCat-Flash-Lite для эффективного расширения больших моделей предоставляет новую возможность: Встраивание N-грамм与оптимизация системыБлагодаря синергетическому дизайну мы можем использовать 29–45 миллиардов параметров динамической активации для ключевых задач, таких как интеллект и кодирование, для достижения конкурентоспособности с более крупными моделями.

Жизненная сила технологий открыта для сотрудничества. Поэтому мы полностью раскрыли мощность модели и технические подробности и приглашаем каждого разработчика испытать, исследовать и поделиться.

Открытая платформа

LongCat 系系门部 следует принципу совместного проектирования модельных систем, поэтому он представляет собой уникальную задачу для обучения и обучения.我们对推理部分最名安全的动力(SGLang-FluentLLM) и частичный 算子也设计设计开源，приветствуемый опыт:

Онлайн-опыт и использование

我们已向设计设计Открытый интерфейс API версии LongCat-Flash-Lite，可电影 Приложение открытой платформы LongCat API，ежедневные бесплатные подарки до 5000 токенов。

Добро пожаловать Star、Fork、帍倈仁反倈落地的более вероятно。 добро пожаловать

Source link