AMD GPU

概要

AMD GPUは、ROCm(Radeon Open Compute)プラットフォームを通じてローカルLLM運用をサポートするGPUです。NVIDIA GPUの代替選択肢として、大容量VRAMと競争力のある価格で注目を集めています。

特にRadeon RXシリーズやInstinct MIシリーズで、コストパフォーマンスに優れたAI推論環境を構築できます。

主要AMD GPU製品

Radeon RXシリーズ(コンシューマー)

  • RX 7900 XTX: 24GB GDDR6、最高性能
  • RX 7900 XT: 20GB GDDR6、ハイエンド
  • RX 6900 XT: 16GB GDDR6、前世代フラッグシップ
  • RX 6800 XT: 16GB GDDR6、ミドルハイ

Instinct MIシリーズ(データセンター)

  • MI300X: 192GB HBM3、最新世代
  • MI250X: 128GB HBM2e、2GPU統合
  • MI210: 64GB HBM2e、CDNA2アーキテクチャ
  • MI100: 32GB HBM2、CDNA初代

ROCm プラットフォーム

ROCmの特徴

  • オープンソース: MIT/Apache 2.0ライセンス
  • CUDA互換: HIPによるCUDAコード移植
  • PyTorch対応: 公式PyTorchでROCm版提供
  • Linux中心: Ubuntu、RHEL等でサポート

インストール例

# Ubuntu 22.04でのROCmインストール
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_latest.deb
sudo dpkg -i amdgpu-install_latest.deb
sudo apt update
sudo apt install amdgpu-dkms rocm

# PyTorch ROCm版のインストール
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.6

ローカルLLMでの性能

RX 7900 XTXでの実用例

  • VRAM: 24GB(RTX 4090と同等)
  • 価格: RTX 4090の約60-70%
  • Llama 2 7B: 約30-45 tokens/秒
  • Llama 2 13B: 約20-30 tokens/秒
  • Code Llama 34B(4bit): 約8-15 tokens/秒

パフォーマンス比較

  • RTX 4090: 100%(基準)
  • RX 7900 XTX: 約60-75%
  • RTX 3090: 約55-70%
  • RX 6900 XT: 約45-60%

対応フレームワーク

PyTorch(ROCm版)

# AMD GPU(ROCm)での使用例
import torch

# ROCm利用可能性確認
print(f"ROCm available: {torch.cuda.is_available()}")
print(f"GPU count: {torch.cuda.device_count()}")

# デバイス設定
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)

# Transformersライブラリとの組み合わせ
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
    "microsoft/DialoGPT-large",
    torch_dtype=torch.float16,
    device_map="auto"
)

llama.cpp(ROCm対応)

# llama.cppのROCm版コンパイル
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_HIPBLAS=1

# AMD GPUでの実行
./main -m models/llama-2-7b-chat.q4_0.gguf \
       -p "User: Hello!" \
       -ngl 35  # GPU層数指定

NVIDIA GPU との比較

AMD GPU の優位性

  • 価格競争力: 同性能帯で20-40%安価
  • VRAM容量: RX 7900 XTXで24GB
  • オープンソース: ROCmの透明性
  • メモリ帯域: 高帯域幅メモリ採用

NVIDIA GPU の優位性

  • フレームワーク対応: より幅広く安定
  • 最適化レベル: cuDNN、TensorRTによる高速化
  • エコシステム: ツール・ライブラリの充実
  • AI専用機能: Tensor Coresの高速化

セットアップと最適化

環境構築のポイント

  • Linux推奨: Ubuntu 22.04 LTS、RHEL 9等
  • カーネル対応: 適切なAMDGPUドライバインストール
  • ROCm版パッケージ: PyTorch、TensorFlow ROCm版使用
  • メモリ設定: 適切なGPUメモリ割り当て

パフォーマンス最適化

# ROCm最適化設定
export HSA_OVERRIDE_GFX_VERSION=10.3.0  # 互換性向上
export ROCM_PATH=/opt/rocm
export HIP_VISIBLE_DEVICES=0  # 使用GPU指定

# メモリ使用量監視
rocm-smi  # GPU状態確認
watch -n 1 rocm-smi  # リアルタイム監視

制限事項と課題

技術的制約

  • フレームワーク対応: NVIDIAより限定的
  • 最適化レベル: CUDA比で劣る場合あり
  • Windows対応: ROCm未対応(WSL使用)
  • 学習サポート: 推論中心、学習は限定的

推奨・非推奨用途

  • 推奨: コスト重視、推論中心、Linux環境
  • 非推奨: 商用・ミッションクリティカル、Windows、学習メイン

実用的な選択指針

AMD GPU 推奨ケース

  • 予算制約: コストパフォーマンス重視
  • 研究・学習: 個人利用、実験用途
  • Linux環境: サーバー・開発環境
  • 大容量VRAM: 24GBクラスを安価に

NVIDIA GPU 推奨ケース

  • 商用運用: 安定性・サポート重視
  • 最高性能: パフォーマンス最優先
  • Windows環境: デスクトップ利用
  • フレームワーク多様性: 幅広いライブラリ使用

関連用語