前言
Обстоятельства такие: у меня RX 6650 XT (gfx1032) и есть кусок винды.
torch.cuda.is_available() возвращаться True,rocm-sdk test Также прошло, Qwen3-0.6B можно загрузить в GPU и сгенерировать текст, выглядит абсолютно нормально.
Когда найден тест, ускорение графического процессора составляет всего 1,7-2,0 раза, коэффициент использования графического процессора в диспетчере задач также невысокий.
тест окружающей среды
| проект | договоренность |
|---|---|
| графический процессор | AMD Radeon RX 6650 XT (gfx1032) |
| РПЦм | 7.11.0a / собрано самостоятельно |
| PyTorch | 2.9.1+rocm7.11.0a |
| модель | Квен/Квен3-0.6Б |
| точность | плавающий 16 |
| система | Windows 10 Профессиональная |
Результаты тестов
用5 классная подсказка 各跑 3次,max_new_tokens=256:
CPU vs GPU Comparison
╔════════════════════╤══════════════╤══════════════╤════════════╗
║ Prompt │ CPU tok/s │ GPU tok/s │ Speedup ║
╟────────────────────┼──────────────┼──────────────┼────────────╢
║ Short Factual │ 16.8 │ 30.0 │ 1.8x ║
║ Summarization │ 14.8 │ 30.3 │ 2.0x ║
║ Reasoning │ 18.0 │ 30.2 │ 1.7x ║
║ Code Generation │ 18.4 │ 30.4 │ 1.7x ║
║ Long-form │ 18.0 │ 30.6 │ 1.7x ║
╚════════════════════╧══════════════╧══════════════╧════════════╝
Несколько наблюдений:
- Путь графического процессора действительно эффективен, ускорьте его в 1,7–2,0 раза.
- 但Это ускорение по сравнению с одним уникальным дисплеем не совсем точное.
- Стабильный графический процессор ~30 ток/с, подсказка подсказки или подсказка.
先看 AMD как сказать
AMD HIP SDK для Windows: официальная матрица поддержки, версия RDNA2:
| графический процессор | архитектура | Время работы | ХИП SDK |
|---|---|---|---|
| Серия RX 6950/6900/6800 | gfx1030 | ✅ | ✅ |
| Серия RX 6750/6700 | gfx1031 | ✅ | ❌ |
| Серия RX 6650/6600 | gfx1032 | ✅ | ❌ |
Поддержка среды выполнения означает, что среда выполнения HIP/OpenCL не может работать; HIP SDK не поддерживает, что означает, что официальная предварительно скомпилированная библиотека HIP SDK не распространяется на аппаратное обеспечение, во время работы могут возникнуть различные проблемы.
Это самый важный момент:gfx1032 не поддерживается официальным HIP SDK в Windows.Поэтому, даже если компилятор сможет работать, его следует психологически подготовить к совместимости и производительности.
冒烟电影:下载下载手机能跑在GPU上?
Чтобы понять реальную производительность PyTorch в текущей среде, я написал тестовый скрипт.tests/test_operators.pyЭто очень просто: создать тензор CUDA/HIP, выполнить операцию, проверить, что выходные данные недоступны на графическом процессоре.
результат:
Summary: 54/55 returned CUDA/HIP tensors | 1 errors | 1 warnings
55 个电视题里, 54 个успешный возврат к тензору CUDA/HIP. Ошибка:
пакетная_норма—— MIOpen 在电视时安全kernel时间,HIPRTC не найден Это стандартная библиотека C++. Это проблема среды компиляции, не поддерживаемой графическим процессором. Последующая цепочка инструментов VS Build C++ Tools должна быть исправлена.
SDPA 有电影—— PyTorch 设计时没设计 эффективное внимание к памяти,scaled_dot_product_attention Функциональность может быть изменена с помощью резервного варианта.
Следует подчеркнуть, что это результат теста.не мочь电影解读成”54/55 个算子有ядро графического процессора, степень покрытия 98%”.
Устройство. Поскольку проверка вывода может подтвердить только настройку языка оборудования PyTorch (результаты тензора CUDA все еще находятся в CUDA), она не может доказать, что серверная часть, ядро и ядро синхронизированы.
В чем причина низкого ускорения?
说实话,У меня нет однозначного ответа. В настоящее время более разумным суждением является сочетание нескольких факторов:
自生名 декодирует 天生吃不满 GPU. Каждый раз генерируется только один токен, пакет = 1, когда ядро 粒度很小, задержка запуска 和调度开问占比就上厯 LLM推理的通病,不独全部ROCm。
Qwen3-0.6B 太小了。 Параметры 600M, fp16 — 1,2 ГБ. 小门在 lot=1 — этап декодирования, узкие места часто связаны с доступом к памяти и открытием кадра, а не с вычислительной мощностью графического процессора.
СДПА использует методы защиты. Предупреждение о компиляции уже было отображено, эффективное внимание к памяти не включено. Для моделей Трансформер это немаловажный коэффициент производительности.
Windows + gfx1032 сама по себе не является официальным сценарием поддержки. Дайте возможность выполнить операцию, но эти аспекты выбора ядра, интеграции библиотек и настройки производительности трудно достичь того же, что и на официально поддерживаемом оборудовании.
CPU 使用率高 ≠ перед 在 CPU 上算。 Диспетчер задач – коэффициент использования процессора 20% слева и справа, на самом деле, большая часть этого – интерпретатор Python, преобразователь генерации циклов, токенизатор, ядро, запуск, синхронизация этих задач, “большая часть вычислений возвращается в процессор”.
Следующий шаг
Для дальнейшего исследования вам также может потребоваться выполнить следующие действия:
- 用
torch.profiler看 CPU 和 Распределение времени активности CUDA/HIP。 - 把 предварительное завершение и декодирование 电影计时,看瓶造全在哪。
- 用电影 LLM 的 тензорная форма 电影机
linear、RMSNorm、RoPE、SDPA、Кэш KV Эти ключевые пути。 - В журнале MIOpen/rocBLAS в конце подтвердите операцию с ключом, какая библиотека исчезла.
- Размер партии, кривая ток/с.
- Если позволяют условия, сравните с Linux ROCm или официально поддерживаемым графическим процессором RDNA3.
заключение
| проблема | отвечать |
|---|---|
| Может ли PyTorch работать на RX 6650 XT? | Определение рабочей нагрузки, использование HIP SDK и поддержка HIP SDK. |
| 算子 уровень покрытия是多少? | 冒烟电影了说 54/55 |
| У вас есть запасные доказательства процессора? | В настоящее время недоступен.batch_norm 是设计报错, 不是backup |
| Почему ускорение графического процессора низкое? | Большая вероятность – пакет = 1. Самовосстановление, резервное внимание, неофициальная поддержка, инфраструктура. |
| Большая модель или большая партия 会好吗? | 很安全, 但得实正, 不可从冒烟波正推断 |
| Обновление ROCm полезно? | можно исправить некоторые ошибки, официальная матрица поддержки是硬马,gfx1032 в краткосрочной перспективе с большой вероятностью не будет 被支正弁杩 |
小结
Использование RDNA2 + Windows для друзей:
- Скомпилируйте ROCm/PyTorch как экспериментальную и производственную среду.
- 先跑冒烟正视实方法下载手机不是电视报错。
- Проблемы с производительностью: профилировщик, позиционирование серверного журнала, устройство вывода.
- LLM 推理要解决方法 предварительное заполнение/декодирование, размер пакета и внимание серверной части.
- Если вам нужна стабильная работа, добивайтесь ожидаемой производительности, отдайте предпочтение Linux ROCm или перейдите на графический процессор Windows.
微信公司号: «电影电视电影电影» фокусируется на популярных новых технологиях Интернета и практике быстрого командного развития, включая проектирование архитектуры, алгоритм машинного обучения и анализа данных, разработку мобильных терминалов, Linux, фронтальную и обратную веб-разработку и т. д., добро пожаловать для совместного изучения технологий, обмена опытом обучения.