Bytejump — это приложение, которое работает в режиме реального времени. ХайФормервыпущенный СИГИР 2026разработка совершенно новой архитектуры целевой оптимизации одновременно завершает моделирование последовательностей и перекрестных характеристик, а не напрямую, реализует лучшую оптимизацию и масштабирование.
фон
Традиционная модель рекомендаций имеет два очень важных подмодуля: моделирование последовательности и перекрестные характеристики.OneTrans Пытаюсь объединить два подмодуля вместе с Трансформером, текст представлен ХайФормер Это тоже похоже, это надежда достичь того же ХайФормер 在结果上上下载下载的电影的电影(下文的多工业在线设计的剧情有下载 MTGR 和 OneTrans (标准电影电影电影)
метод

Генерация запросов
时间内容的 Токенизация 沉用 RankMixer/OneTrans стратегия, для непоследовательных функций Что касается группы 和 Автоматический обмен Два типа метода обмена токенов, вот выбранный
Отличие от вашей нынешней работы заключается в том,Хайформер предложенный Глобальные токены Используйте текущую функцию последовательности и функцию отсутствия последовательности, чтобы извлечь глобальную информацию, а затем запросить функцию запроса. \(F_1, F_2, \ldots, F_M\) 与电影的Mean Pooling 狼接,以业 Global Info,再电影 \(Н\) 个上行的轻量 FFN 上是最好的 \(Н\) 个 Глобальные токены:
\[Q = \left[\mathrm{FFN}_1(\mathrm{Global~Info}),\ \ldots,\ \mathrm{FFN}_N(\mathrm{Global~Info})\right] \in \mathbb{R}^{N \times D} \]
здесь \(Н\) 是超参,在 HyFormer 中 N Обычно 很小(小小小小(小小小室中学面非影共 Токены 小成总共 16个(小(小学实中学青非形共 NS Tokens) 都使用Практика запросов, значительно сокращает расчеты KV Cache
Кодирование КВ
Прежде чем выполнять запросы декодирования, необходимо закодировать длинную последовательность действий для многоуровневого отображения K/V.ХайФормер Здесь представлены три гибкие стратегии для адаптации к ограничениям вычислений различных сценариев (все стратегии в конечном итоге создают один и тот же интерфейс:\((К_л, В_л)\),设计以Расшифровка запроса 设计设计):
-
Полное кодирование с помощью преобразователя:最重会最强时间,непосредственно在longsequipment上做полное внимание к себе, фиксирующее детальное взаимодействие последовательности.
-
Эффективное кодирование в более длинном стиле: Для подходящей онлайн-печати очень короткая последовательность сжатия(记记 \(S_{\text{short}}\))使用Вопрос,对正视长工作做 Перекрестное внимание。 电影度从 \(О(L_S^2)\) 降至 \(О(L_H L_S)\)(\(L_H \ll L_S\)), сохраняя при этом большую часть возможностей моделирования и одновременно значительно сжимая вычисления.
-
Простое кодирование в стиле декодера: 最轻金属电影,电影用SwiGLU 等无 Внимание 所述者数用对工作做逐位发动安全舍完全舍间взаимодействие, подходит для экстремальных требований к задержке
Расшифровка запросов
При использовании дисплея Query 和电影的 K/V декодирование запроса является стандартом перекрестного внимания с несколькими головками:
\[\tilde{Q}_{(l)} = \mathrm{CrossAttn}(Q_{(l-1)}, K_{(l)}, V_{(l)})
\]
Результат этого слоя \(\tilde{Q}_{(l)}\) Глобальные токены, которые обновляются в длинной последовательности, несут сигналы интереса и интереса, связанные с текущим глобальным контекстом, извлеченным из истории поведения пользователя, и текущая информация о глобальном контексте реализации на каждом уровне, могут напрямую вмешиваться в понимание последовательности.
Улучшение запросов
Если функцией фронтального декодирования запросов является моделирование последовательностей, то функцией повышения запросов является перекрестное сопоставление функций.
\[Q = [\tilde{Q}_{(l)}, F_1, \ldots, F_M] \in \mathbb{R}^{T \times D} \]
Затем используйте РейтингMixer 的 Операция смешивания токенов,Пусть эти токены между 两两分两两下全两两下全两两分电影的改式。 京生的识,Каждый Токен 沩逴庤庤收информация. 五界识,Каждый токен 沩逴分информация об обмене \(Т\) 个子电影 (здесь 子电影数在Количество токенов должно совпадать), все токены в одном и том же 子电影 затем отправляются в один перекрестный токен 的 MLP, реализуя эффект, аналогичный «всем токенам в некотором 子电影在看看一看», наконец снова передает язык токена FFN для каждого токена и соединяется с фазой ввода через оставшуюся разницу в качестве вывода текущего слоя HyFormer.
\[\tilde{Q}_{\text{boost}} = Q + \mathrm{PerToken\text{-}FFN}(\mathrm{TokenMixer}(Q))
\]
Усиление запросов запроса,可以一个交替递进的雅环
Моделирование с использованием нескольких последовательностей
В промышленных сценариях пользователи обычно имеют множество различных последовательностей поведения (последовательность поиска, короткая видеопоследовательность, последовательность товаров), а характерное пространство и язык различных последовательностей сильно различаются.OneTrans 和 MTGR 的方法是将天时按时间杕或意图内容后拥接成一个长工作电影电视,但 ХайФормер GMV не превышает 1,2%.
HyFormer 的解法延组了其用电影 Global Tokens 做информационная маршрутизация的思路:每条电影电影 хотя бы один Поскольку токены глобальные. Токены разных последовательностей взаимодействуют друг с другом в одном и том же пуле смешивания токенов, чтобы косвенно завершить объединение информации между последовательностями. + дизайн «унифицированного взаимодействия смешанного пула», позволяющий модели не только сохранять независимость моделирования каждой последовательности, но также реализовывать скрытую передачу знаний между последовательностями.
эксперимент

Вы можете видеть, что HyFormer значительно снизил FLOPS, достигнув при этом самого высокого AUC.


По сравнению с лучшей линией LONGER + RankMixer, Scaling имеет высокие показатели производительности, а также линейка получила значительный заметный доход.
краткое содержание
ХайФормер 用一个交替情力、三线设计(генерация запроса/декодирование запроса/повышение запроса) Переопределено串行美报,, но пусть они все будут в одной магистральной сети 内交替连代、微二手机。 Экспериментальное доказательство ХайФормер Проблема с расширением KV-кэша. OneTrans 通过 Масштабирование 上海电影电影)