
Традиционная архитектура MoE обычно улучшает возможности модели за счет увеличения количества экспертов, но по мере увеличения числа экспертов могут возникнуть такие проблемы, как снижение предельного дохода и усиление системной коммуникации. Благодаря всестороннему анализу и экспериментам команда LongCat обнаружила, что встраивание расширения позволяет добиться более высокой производительности по сравнению с экспертами по расширениям.
Основываясь на этих знаниях, мы официально запускаем LongCat-Flash-Lite — версию с 68500 миллионами параметров, и каждый раз активируется только 2900-4500 миллионов параметров. Используя более 30 миллиардов эффективных параметров для слоя внедрения, LongCat-Flash-Lite не только превосходит линейную модель MoE с эквивалентными параметрами, но также демонстрирует выдающуюся конкурентоспособность по сравнению с существующими моделями того же масштаба, особенно в области интеллекта и кода, и опирается на YARN. Технология может поддерживать контекст до 256 КБ, эффективно обрабатывать длинные документы, крупномасштабный анализ кода и т. д. сценарии. В то же время модель основана на встроенной расширенной оптимизации приложений и системного уровня, что позволяет значительно повысить эффективность модели при типичной нагрузке на вход 4 КБ, выход 1 КБ, LongCat API может обеспечить скорость генерации токенов 500-700/с.
01 更优的手机フィフィック: От «堆标南» до «前最合»
Основная функция слоя внедрения N-грамм — улучшить способность модели фиксировать язык в локальном контексте. С помощью функции 哈希 последовательность, состоящая из текущего токена и предшествующих ему N-1 токенов, отображается в целый вектор внедрения N-граммы и объединяется с базовым вектором внедрения токена. Например, когда модель видит «команду ввода терминала», ее не будут путать с «открытым файлом» в повседневной жизни, но она может точно заблокировать «команду ввода терминала» в этой сцене, значительно повышая точность понимания языка.
В процессе генерации векторов внедрения N-грамм ключевой задачей является избежание коллизий, то есть разные последовательности N-грамм сопоставляются с одним и тем же вектором. Поэтому команда LongCat приняла два ключевых решения:
- 子表电视与линейная проекция: Разделите большую таблицу встраивания N-грамм на несколько подтаблиц и отдельно выполните преобразование линейной проекции, что может значительно снизить вероятность коллизий.
- 词汇表大小避坑:Размер таблицы встраивания N-грамм требует тщательного проектирования, чтобы снизить частоту столкновений. Кроме того, за счет внедрения технологии внедрения усиления (如在在成动发动剧分商和归一化) он гарантирует, что лингвистический сигнал, обеспечиваемый слоем внедрения, не будет утоплен в остаточном соединении сети глубокого уровня вниманием выходного модуля, тем самым обеспечивая эффективность его вклада во весь процесс прямого распространения.

02 Превосходная эффективность: 三重реализация оптимизации 极致流式
Слой внедрения N-грамм может не только улучшить возможности модели, его структурные характеристики также открывают новое направление для ускорения анализа. Хотя общее количество параметров модели составляет 685 миллиардов, но с помощью механизма динамической активации каждый раз активируется только 29 ~ 45 миллиардов параметров.
- интеллектуальные параметры распределения: Мы поместим 31,4 млрд параметров (46% от общего числа параметров) в слой внедрения N-грамм. По сравнению с простым увеличением количества экспертов MoE, эта схема может эффективно сократить взаимодействие между экспертными модулями и время открытия, а также выиграть от сложности поиска уровня внедрения O (1), избегая линейного увеличения вычислений, вызванного расширением параметров.
- Специальная оптимизация кэша и ядра: Мы разработали механизм выделенного кэша N-gram Cache (вдохновленный KV Cache), управляем идентификатором N-грамм непосредственно на устройстве графического процессора и реализуем сложную логику динамической настройки в рамках системы для достижения синхронизации с низкой скоростью открытия и значительного уменьшения задержки ввода-вывода встроенного поиска. В то же время за счет настройки ядра CUDA и обширного слияния ядра (AllReduce+Residual Add+RMSNorm, Logits Router Softmax+TopK+Scaling fusion) и технологии PDL (запуск зависит от программирования) и т. д. можно повысить уровень загрузки графического процессора, уменьшить зазор при запуске ядра.
- Сотрудничать: Чтобы в полной мере воспользоваться преимуществами глубины активации, мы скоординируем ее со стратегией декодирования с проверкой глубины. Благодаря трехэтапному процессу приведения мы увеличили фактический размер пакета, использовали характеристики низкого общего ввода активации и в то же время для чувствительных к задержке характеристик 草案山色 (черновая модель) позволили ему использовать обычный слой внедрения, чтобы избежать накладных расходов на поиск N-грамм, что еще больше повышает производительность обработки.
Таким образом, посредством переназначения параметров, выделенного кэша и оптимизации ядра, исключения открытой системы и глубокой координации стратегии декодирования, LongCat-Flash-Lite реализует вертикальную оптимизацию системы от структуры модели до среды выполнения, и, наконец, теоретические преимущества, полученные от внедрения N-граммы, эффективно преобразуются в высокую пропускную способность и практические рассуждения с низкой задержкой.

03 производительность: передовые интеллектуальные инструменты и возможности программирования
LongCat-Flash-Lite демонстрирует ведущую производительность в использовании интеллектуальных инструментов и задач программирования: τ²-Bench очень продвинут в трех основных отраслевых сценариях, в области программирования он охватывает все возможности соединения и превосходную производительность в задачах восстановления кода, выполнения терминала, многоязычной разработки и т. д.

интеллектуальное выполнение задач
На основе оценки сложных инструментов, используемых при выполнении рабочего процесса, выдающиеся характеристики модели: – τ²-Банковская индустрия: телекоммуникации (72,8 балла), розничная торговля (73,1 балла), авиация (58,0 балла). Общий сценарий VitaBench: Версия 7.0 опережает модель сравнения, подтверждая, что она может использовать практические инструменты в разнообразных реальных задачах.
производительность задачи кода
На основе измерения практических навыков программирования модель демонстрирует сильные способности к решению проблем:
- ремонт кода(SWE-Bench): Показатель точности 54,4% является ведущим по сравнению с моделью того же масштаба, что доказывает ее эффективность в решении реальных проблем разработки программного обеспечения (исправление ошибок, реализация характеристик).
- выполнение команды терминала (TerminalBench):33,75°. Время выполнения 15-20 минут по сравнению с моделью, что свидетельствует о высокоточном понимании рабочего процесса разработчика.
- 多语语学里设计(SWE-Bench Multilingual):Показатель точности 38,10% показывает лучшую способность к обобщению между языком программирования и экологией программного обеспечения.
Общие знания и способности
Модель обеспечивает сбалансированную производительность при комплексной оценке:
- комплексные знания (MMLU):85,52 分, 与Gemini 2.5 Flash-Lite (84,68) относительно.
- 中文评论(C-Eval и CMMLU): 电影电影86,55分与82,48分,在中国电影中安全下载的分分。
- Сложность (MMLU-Pro, GPQA-Diamond)Производительность: от 78,29 до 66,78, демонстрирующая способность решать междисциплинарные проблемы высокого уровня.
- 数学推理(MATH500, AIME):在天生(96,80%))与科动赛级数学问题(AIME24:72,19; AIME25:63.23)上均手机安健,集长多步推演。
Исполнение 轻量, 不 «轻»: 开源与意总, 即刻发动
Практика LongCat-Flash-Lite для эффективного расширения больших моделей предоставляет новую возможность: Встраивание N-грамм与оптимизация системыБлагодаря синергетическому дизайну мы можем использовать 29–45 миллиардов параметров динамической активации для ключевых задач, таких как интеллект и кодирование, для достижения конкурентоспособности с более крупными моделями.
Жизненная сила технологий открыта для сотрудничества. Поэтому мы полностью раскрыли мощность модели и технические подробности и приглашаем каждого разработчика испытать, исследовать и поделиться.
Открытая платформа
LongCat 系系门部 следует принципу совместного проектирования модельных систем, поэтому он представляет собой уникальную задачу для обучения и обучения.我们对推理部分最名安全的动力(SGLang-FluentLLM) и частичный 算子也设计设计开源,приветствуемый опыт:
Онлайн-опыт и использование
我们已向设计设计Открытый интерфейс API версии LongCat-Flash-Lite,可电影 Приложение открытой платформы LongCat API,ежедневные бесплатные подарки до 5000 токенов。
Добро пожаловать Star、Fork、帍倈仁反倈落地的более вероятно。 добро пожаловать