AMD GPU
概要
AMD GPU
は、ROCm
(Radeon Open Compute)プラットフォームを通じてローカルLLM運用をサポートするGPUです。NVIDIA GPUの代替選択肢として、大容量VRAM
と競争力のある価格で注目を集めています。
特にRadeon RXシリーズやInstinct MIシリーズで、コストパフォーマンスに優れたAI推論環境を構築できます。
主要AMD GPU製品
Radeon RXシリーズ(コンシューマー)
- RX 7900 XTX: 24GB GDDR6、最高性能
- RX 7900 XT: 20GB GDDR6、ハイエンド
- RX 6900 XT: 16GB GDDR6、前世代フラッグシップ
- RX 6800 XT: 16GB GDDR6、ミドルハイ
Instinct MIシリーズ(データセンター)
- MI300X: 192GB HBM3、最新世代
- MI250X: 128GB HBM2e、2GPU統合
- MI210: 64GB HBM2e、CDNA2アーキテクチャ
- MI100: 32GB HBM2、CDNA初代
ROCm プラットフォーム
ROCmの特徴
- オープンソース: MIT/Apache 2.0ライセンス
- CUDA互換: HIPによるCUDAコード移植
- PyTorch対応: 公式PyTorchでROCm版提供
- Linux中心: Ubuntu、RHEL等でサポート
インストール例
# Ubuntu 22.04でのROCmインストール
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_latest.deb
sudo dpkg -i amdgpu-install_latest.deb
sudo apt update
sudo apt install amdgpu-dkms rocm
# PyTorch ROCm版のインストール
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.6
ローカルLLMでの性能
RX 7900 XTXでの実用例
- VRAM: 24GB(RTX 4090と同等)
- 価格: RTX 4090の約60-70%
- Llama 2 7B: 約30-45 tokens/秒
- Llama 2 13B: 約20-30 tokens/秒
- Code Llama 34B(4bit): 約8-15 tokens/秒
パフォーマンス比較
- RTX 4090: 100%(基準)
- RX 7900 XTX: 約60-75%
- RTX 3090: 約55-70%
- RX 6900 XT: 約45-60%
対応フレームワーク
PyTorch(ROCm版)
# AMD GPU(ROCm)での使用例
import torch
# ROCm利用可能性確認
print(f"ROCm available: {torch.cuda.is_available()}")
print(f"GPU count: {torch.cuda.device_count()}")
# デバイス設定
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)
# Transformersライブラリとの組み合わせ
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
"microsoft/DialoGPT-large",
torch_dtype=torch.float16,
device_map="auto"
)
llama.cpp(ROCm対応)
# llama.cppのROCm版コンパイル
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_HIPBLAS=1
# AMD GPUでの実行
./main -m models/llama-2-7b-chat.q4_0.gguf \
-p "User: Hello!" \
-ngl 35 # GPU層数指定
NVIDIA GPU との比較
AMD GPU の優位性
- 価格競争力: 同性能帯で20-40%安価
- VRAM容量: RX 7900 XTXで24GB
- オープンソース: ROCmの透明性
- メモリ帯域: 高帯域幅メモリ採用
NVIDIA GPU の優位性
- フレームワーク対応: より幅広く安定
- 最適化レベル: cuDNN、TensorRTによる高速化
- エコシステム: ツール・ライブラリの充実
- AI専用機能: Tensor Coresの高速化
セットアップと最適化
環境構築のポイント
- Linux推奨: Ubuntu 22.04 LTS、RHEL 9等
- カーネル対応: 適切なAMDGPUドライバインストール
- ROCm版パッケージ: PyTorch、TensorFlow ROCm版使用
- メモリ設定: 適切なGPUメモリ割り当て
パフォーマンス最適化
# ROCm最適化設定
export HSA_OVERRIDE_GFX_VERSION=10.3.0 # 互換性向上
export ROCM_PATH=/opt/rocm
export HIP_VISIBLE_DEVICES=0 # 使用GPU指定
# メモリ使用量監視
rocm-smi # GPU状態確認
watch -n 1 rocm-smi # リアルタイム監視
制限事項と課題
技術的制約
- フレームワーク対応: NVIDIAより限定的
- 最適化レベル: CUDA比で劣る場合あり
- Windows対応: ROCm未対応(WSL使用)
- 学習サポート: 推論中心、学習は限定的
推奨・非推奨用途
- 推奨: コスト重視、推論中心、Linux環境
- 非推奨: 商用・ミッションクリティカル、Windows、学習メイン
実用的な選択指針
AMD GPU 推奨ケース
- 予算制約: コストパフォーマンス重視
- 研究・学習: 個人利用、実験用途
- Linux環境: サーバー・開発環境
- 大容量VRAM: 24GBクラスを安価に
NVIDIA GPU 推奨ケース
- 商用運用: 安定性・サポート重視
- 最高性能: パフォーマンス最優先
- Windows環境: デスクトップ利用
- フレームワーク多様性: 幅広いライブラリ使用