AMD GPU

概要

AMD GPUは、ROCm（Radeon Open Compute）プラットフォームを通じてローカルLLM運用をサポートするGPUです。NVIDIA GPUの代替選択肢として、大容量VRAMと競争力のある価格で注目を集めています。

特にRadeon RXシリーズやInstinct MIシリーズで、コストパフォーマンスに優れたAI推論環境を構築できます。

主要AMD GPU製品

Radeon RXシリーズ（コンシューマー）

RX 7900 XTX: 24GB GDDR6、最高性能
RX 7900 XT: 20GB GDDR6、ハイエンド
RX 6900 XT: 16GB GDDR6、前世代フラッグシップ
RX 6800 XT: 16GB GDDR6、ミドルハイ

Instinct MIシリーズ（データセンター）

MI300X: 192GB HBM3、最新世代
MI250X: 128GB HBM2e、2GPU統合
MI210: 64GB HBM2e、CDNA2アーキテクチャ
MI100: 32GB HBM2、CDNA初代

ROCm プラットフォーム

ROCmの特徴

オープンソース: MIT/Apache 2.0ライセンス
CUDA互換: HIPによるCUDAコード移植
PyTorch対応: 公式PyTorchでROCm版提供
Linux中心: Ubuntu、RHEL等でサポート

インストール例

# Ubuntu 22.04でのROCmインストール
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_latest.deb
sudo dpkg -i amdgpu-install_latest.deb
sudo apt update
sudo apt install amdgpu-dkms rocm

# PyTorch ROCm版のインストール
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.6

ローカルLLMでの性能

RX 7900 XTXでの実用例

VRAM: 24GB（RTX 4090と同等）
価格: RTX 4090の約60-70%
Llama 2 7B: 約30-45 tokens/秒
Llama 2 13B: 約20-30 tokens/秒
Code Llama 34B（4bit）: 約8-15 tokens/秒

パフォーマンス比較

RTX 4090: 100%（基準）
RX 7900 XTX: 約60-75%
RTX 3090: 約55-70%
RX 6900 XT: 約45-60%

対応フレームワーク

PyTorch（ROCm版）

# AMD GPU（ROCm）での使用例
import torch

# ROCm利用可能性確認
print(f"ROCm available: {torch.cuda.is_available()}")
print(f"GPU count: {torch.cuda.device_count()}")

# デバイス設定
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)

# Transformersライブラリとの組み合わせ
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
    "microsoft/DialoGPT-large",
    torch_dtype=torch.float16,
    device_map="auto"
)

llama.cpp（ROCm対応）

# llama.cppのROCm版コンパイル
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_HIPBLAS=1

# AMD GPUでの実行
./main -m models/llama-2-7b-chat.q4_0.gguf \
       -p "User: Hello!" \
       -ngl 35  # GPU層数指定

NVIDIA GPU との比較

AMD GPU の優位性

価格競争力: 同性能帯で20-40%安価
VRAM容量: RX 7900 XTXで24GB
オープンソース: ROCmの透明性
メモリ帯域: 高帯域幅メモリ採用

NVIDIA GPU の優位性

フレームワーク対応: より幅広く安定
最適化レベル: cuDNN、TensorRTによる高速化
エコシステム: ツール・ライブラリの充実
AI専用機能: Tensor Coresの高速化

セットアップと最適化

環境構築のポイント

Linux推奨: Ubuntu 22.04 LTS、RHEL 9等
カーネル対応: 適切なAMDGPUドライバインストール
ROCm版パッケージ: PyTorch、TensorFlow ROCm版使用
メモリ設定: 適切なGPUメモリ割り当て

パフォーマンス最適化

# ROCm最適化設定
export HSA_OVERRIDE_GFX_VERSION=10.3.0  # 互換性向上
export ROCM_PATH=/opt/rocm
export HIP_VISIBLE_DEVICES=0  # 使用GPU指定

# メモリ使用量監視
rocm-smi  # GPU状態確認
watch -n 1 rocm-smi  # リアルタイム監視

制限事項と課題

技術的制約

フレームワーク対応: NVIDIAより限定的
最適化レベル: CUDA比で劣る場合あり
Windows対応: ROCm未対応（WSL使用）
学習サポート: 推論中心、学習は限定的

推奨・非推奨用途

推奨: コスト重視、推論中心、Linux環境
非推奨: 商用・ミッションクリティカル、Windows、学習メイン

AMD GPU

概要

主要AMD GPU製品

Radeon RXシリーズ（コンシューマー）

Instinct MIシリーズ（データセンター）

ROCm プラットフォーム

ROCmの特徴

インストール例

ローカルLLMでの性能

RX 7900 XTXでの実用例

パフォーマンス比較

対応フレームワーク

PyTorch（ROCm版）

llama.cpp（ROCm対応）

NVIDIA GPU との比較

AMD GPU の優位性

NVIDIA GPU の優位性

セットアップと最適化

環境構築のポイント

パフォーマンス最適化

制限事項と課題

技術的制約

推奨・非推奨用途

実用的な選択指針

AMD GPU 推奨ケース

NVIDIA GPU 推奨ケース

関連用語