ROCm о производительности Windows排查：RX 6650 XT 跑 PyTorch，почему ускорение не очевидно？ – 曦远Code

前言

Обстоятельства такие: у меня RX 6650 XT (gfx1032) и есть кусок винды.

torch.cuda.is_available() возвращаться True,rocm-sdk test Также прошло, Qwen3-0.6B можно загрузить в GPU и сгенерировать текст, выглядит абсолютно нормально.

Когда найден тест, ускорение графического процессора составляет всего 1,7-2,0 раза, коэффициент использования графического процессора в диспетчере задач также невысокий.

тест окружающей среды

проект	договоренность
графический процессор	AMD Radeon RX 6650 XT (gfx1032)
РПЦм	7.11.0a / собрано самостоятельно
PyTorch	2.9.1+rocm7.11.0a
модель	Квен/Квен3-0.6Б
точность	плавающий 16
система	Windows 10 Профессиональная

Результаты тестов

用5 классная подсказка 各跑 3次,max_new_tokens=256:

                    CPU vs GPU Comparison
╔════════════════════╤══════════════╤══════════════╤════════════╗
║ Prompt             │    CPU tok/s │    GPU tok/s │    Speedup ║
╟────────────────────┼──────────────┼──────────────┼────────────╢
║ Short Factual      │         16.8 │         30.0 │       1.8x ║
║ Summarization      │         14.8 │         30.3 │       2.0x ║
║ Reasoning          │         18.0 │         30.2 │       1.7x ║
║ Code Generation    │         18.4 │         30.4 │       1.7x ║
║ Long-form          │         18.0 │         30.6 │       1.7x ║
╚════════════════════╧══════════════╧══════════════╧════════════╝

Несколько наблюдений:

Путь графического процессора действительно эффективен, ускорьте его в 1,7–2,0 раза.
但Это ускорение по сравнению с одним уникальным дисплеем не совсем точное.
Стабильный графический процессор ~30 ток/с, подсказка подсказки или подсказка.

先看 AMD как сказать

AMD HIP SDK для Windows: официальная матрица поддержки, версия RDNA2:

графический процессор	архитектура	Время работы	ХИП SDK
Серия RX 6950/6900/6800	gfx1030	✅	✅
Серия RX 6750/6700	gfx1031	✅	❌
Серия RX 6650/6600	gfx1032	✅	❌

Поддержка среды выполнения означает, что среда выполнения HIP/OpenCL не может работать; HIP SDK не поддерживает, что означает, что официальная предварительно скомпилированная библиотека HIP SDK не распространяется на аппаратное обеспечение, во время работы могут возникнуть различные проблемы.

Это самый важный момент:gfx1032 не поддерживается официальным HIP SDK в Windows.Поэтому, даже если компилятор сможет работать, его следует психологически подготовить к совместимости и производительности.

冒烟电影:下载下载手机能跑在GPU上？

Чтобы понять реальную производительность PyTorch в текущей среде, я написал тестовый скрипт.tests/test_operators.pyЭто очень просто: создать тензор CUDA/HIP, выполнить операцию, проверить, что выходные данные недоступны на графическом процессоре.

результат:

Summary: 54/55 returned CUDA/HIP tensors | 1 errors | 1 warnings

55 个电视题里, 54 个успешный возврат к тензору CUDA/HIP. Ошибка:

пакетная_норма—— MIOpen 在电视时安全kernel时间,HIPRTC не найден Это стандартная библиотека C++. Это проблема среды компиляции, не поддерживаемой графическим процессором. Последующая цепочка инструментов VS Build C++ Tools должна быть исправлена.

SDPA 有电影—— PyTorch 设计时没设计 эффективное внимание к памяти,scaled_dot_product_attention Функциональность может быть изменена с помощью резервного варианта.

Следует подчеркнуть, что это результат теста.не мочь电影解读成”54/55 个算子有ядро графического процессора, степень покрытия 98%”.

Устройство. Поскольку проверка вывода может подтвердить только настройку языка оборудования PyTorch (результаты тензора CUDA все еще находятся в CUDA), она не может доказать, что серверная часть, ядро и ядро синхронизированы.

В чем причина низкого ускорения?

说实话，У меня нет однозначного ответа. В настоящее время более разумным суждением является сочетание нескольких факторов:

自生名 декодирует 天生吃不满 GPU. Каждый раз генерируется только один токен, пакет = 1, когда ядро 粒度很小, задержка запуска 和调度开问占比就上厯 LLM推理的通病,不独全部ROCm。

Qwen3-0.6B 太小了。 Параметры 600M, fp16 — 1,2 ГБ. 小门在 lot=1 — этап декодирования, узкие места часто связаны с доступом к памяти и открытием кадра, а не с вычислительной мощностью графического процессора.

СДПА использует методы защиты. Предупреждение о компиляции уже было отображено, эффективное внимание к памяти не включено. Для моделей Трансформер это немаловажный коэффициент производительности.

Windows + gfx1032 сама по себе не является официальным сценарием поддержки. Дайте возможность выполнить операцию, но эти аспекты выбора ядра, интеграции библиотек и настройки производительности трудно достичь того же, что и на официально поддерживаемом оборудовании.

CPU 使用率高 ≠ перед 在 CPU 上算。 Диспетчер задач – коэффициент использования процессора 20% слева и справа, на самом деле, большая часть этого – интерпретатор Python, преобразователь генерации циклов, токенизатор, ядро, запуск, синхронизация этих задач, “большая часть вычислений возвращается в процессор”.

Следующий шаг

Для дальнейшего исследования вам также может потребоваться выполнить следующие действия:

用 torch.profiler 看 CPU 和 Распределение времени активности CUDA/HIP。
把 предварительное завершение и декодирование 电影计时,看瓶造全在哪。
用电影 LLM 的 тензорная форма 电影机 linear、RMSNorm、RoPE、SDPA、Кэш KV Эти ключевые пути。
В журнале MIOpen/rocBLAS в конце подтвердите операцию с ключом, какая библиотека исчезла.
Размер партии, кривая ток/с.
Если позволяют условия, сравните с Linux ROCm или официально поддерживаемым графическим процессором RDNA3.

заключение

проблема	отвечать
Может ли PyTorch работать на RX 6650 XT?	Определение рабочей нагрузки, использование HIP SDK и поддержка HIP SDK.
算子 уровень покрытия是多少？	冒烟电影了说 54/55
У вас есть запасные доказательства процессора?	В настоящее время недоступен.`batch_norm` 是设计报错, 不是backup
Почему ускорение графического процессора низкое?	Большая вероятность – пакет = 1. Самовосстановление, резервное внимание, неофициальная поддержка, инфраструктура.
Большая модель или большая партия 会好吗?	很安全, 但得实正, 不可从冒烟波正推断
Обновление ROCm полезно?	можно исправить некоторые ошибки, официальная матрица поддержки是硬马,gfx1032 в краткосрочной перспективе с большой вероятностью не будет 被支正弁杩

小结

Использование RDNA2 + Windows для друзей:

Скомпилируйте ROCm/PyTorch как экспериментальную и производственную среду.
先跑冒烟正视实方法下载手机不是电视报错。
Проблемы с производительностью: профилировщик, позиционирование серверного журнала, устройство вывода.
LLM 推理要解决方法 предварительное заполнение/декодирование, размер пакета и внимание серверной части.
Если вам нужна стабильная работа, добивайтесь ожидаемой производительности, отдайте предпочтение Linux ROCm или перейдите на графический процессор Windows.

微信公司号: «电影电视电影电影» фокусируется на популярных новых технологиях Интернета и практике быстрого командного развития, включая проектирование архитектуры, алгоритм машинного обучения и анализа данных, разработку мобильных терминалов, Linux, фронтальную и обратную веб-разработку и т. д., добро пожаловать для совместного изучения технологий, обмена опытом обучения.

Source link