Quantization（量子化）

概要

Quantization（量子化）は、AIモデルのパラメータ（重みやアクティベーション）を低い精度のデータ型で表現することで、メモリ使用量の削減と推論速度の向上を実現する最適化技術です。

ローカルLLM運用において、限られたVRAMで大規模言語モデルを効率的に実行するための重要な技術として位置づけられています。

量子化の種類

FP32 → FP16量子化

メモリ削減: 50%削減（32bit → 16bit）
精度: ほぼ劣化なし
対応ハードウェア: 最新GPU（RTX 30/40シリーズ）
用途: 高精度が必要な推論タスク

INT8量子化

メモリ削減: 75%削減（32bit → 8bit）
精度: 軽微な劣化（通常1-3%）
対応ハードウェア: Tensor Cores対応GPU
用途: 一般的な推論タスク

INT4量子化

メモリ削減: 87.5%削減（32bit → 4bit）
精度: 中程度の劣化（5-10%）
対応ハードウェア: 専用最適化必要
用途: 大規模モデルの実行

動的量子化

特徴: 推論時にリアルタイムで量子化
利点: 精度と効率のバランス
欠点: 計算オーバーヘッド
用途: 可変長入力の処理

ローカルLLMでの実用例

13Bモデルの量子化比較

Llama 2 13Bの量子化例：

FP32（原本）: 52GB VRAM、最高精度
FP16: 26GB VRAM、実用的精度
INT8: 13GB VRAM、軽微な精度低下
INT4: 6.5GB VRAM、中程度の精度低下

GPU別推奨量子化

8GB VRAM（RTX 4060 Ti）: 7Bモデル（INT8）または3Bモデル（FP16）
12GB VRAM（RTX 4070）: 7Bモデル（FP16）または13Bモデル（INT8）
16GB VRAM（RTX 4080）: 13Bモデル（FP16）または30Bモデル（INT4）
24GB VRAM（RTX 4090）: 30Bモデル（INT8）または70Bモデル（INT4）

量子化ツールとライブラリ

bitsandbytes

PyTorchベースの量子化ライブラリ。4bit/8bit量子化をサポートし、Transformersライブラリと統合されています。

# 8bit量子化でモデル読み込み
from transformers import AutoModelForCausalLM
import torch

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-13b-chat-hf",
    device_map="auto",
    load_in_8bit=True,
    torch_dtype=torch.float16
)

GPTQ（GPT Quantization）

4bit量子化に特化した手法。推論速度を重視し、精度の劣化を最小限に抑えます。

AWQ（Activation-aware Weight Quantization）

アクティベーションを考慮した重み量子化。GPTQよりも高精度を実現する新しい手法です。

GGML/GGUF

CPU推論に最適化された量子化フォーマット。llama.cppやOllamaで使用されます。

量子化の実装手順

1. 環境セットアップ

# 必要ライブラリのインストール
pip install torch transformers accelerate bitsandbytes

# GPU確認
python -c "import torch; print(torch.cuda.is_available())"

2. 量子化設定

from transformers import BitsAndBytesConfig

# 4bit量子化設定
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

3. モデル読み込み

# 量子化済みモデル読み込み
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-chat-hf",
    quantization_config=quantization_config,
    device_map="auto"
)

# メモリ使用量確認
print(f"モデルサイズ: {model.get_memory_footprint() / 1024**3:.2f} GB")

量子化の注意点

精度の劣化

数学的推論: 量子化により計算精度が低下する場合がある
長文生成: 一貫性の維持が困難になる可能性
専門用語: 特定分野の専門知識で精度低下

ハードウェア依存性

Tensor Cores: INT8量子化の恩恵を受けるには対応GPU必要
メモリ帯域幅: 量子化による速度向上はメモリ帯域に依存
ドライバー: 最新のCUDAドライバーが必要

用途別推奨事項

チャットボット: INT8量子化で十分な品質
コード生成: FP16推奨（精度重視）
文書要約: INT4でも実用的
創作活動: FP16で高品質な出力