メインコンテンツへスキップ
Google’s Gemma 4 のような推論モデルは、最終的な回答に加えて、推論ステップに関する情報も返します。このページでは、W&B Inference で推論対応モデルを識別する方法、レスポンス内のどこで推論出力を確認できるか、また推論の切り替えをサポートするモデルで推論のオン/オフを切り替える方法について説明します。 モデルが推論をサポートするかどうかを判断するには、次の サポートされるモデル の表、または UI のそのカタログページにある Supported Features セクションを確認してください。 推論情報は、レスポンスの reasoning フィールドに表示されます。推論非対応モデルのレスポンスでは、このフィールドの値は null です。

推論がサポートされるモデル

次の表は、W&B Inference で 推論 output を返すモデルを示しています。サポートされる各モデルでは、推論 が常に含まれる場合や、既定で 推論 が無効または有効になっている場合があります。
モデル ID (API 用)推論 サポート
google/gemma-4-31B-itデフォルトで有効
MiniMaxAI/MiniMax-M2.5常時有効
moonshotai/Kimi-K2.5常時有効
nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8デフォルトで有効
openai/gpt-oss-120b常時有効
openai/gpt-oss-20b常時有効
Qwen/Qwen3.5-35B-A3Bデフォルトで有効
Qwen/Qwen3-235B-A22B-Thinking-2507常時有効
zai-org/GLM-5.1デフォルトで有効

推論が 常時有効 のモデル

前述のサポートされるモデル表でモデルが常時有効と記載されている場合、そのモデルには常に推論が含まれており、これを無効にすることはできません。

推論を無効にする

モデルが前述の サポートされるモデル の表で デフォルトで有効 として記載されている場合は、トークン使用量を減らしたり、応答を簡潔にしたりするために、推論を無効にできます。リクエストで推論を無効にするには、chat_template_kwargsenable_thinking フラグを False (Python) または false (Bash) に設定します。
import openai

client = openai.OpenAI(
    base_url='https://api.inference.wandb.ai/v1',
    api_key="[YOUR-API-KEY]",  # https://wandb.ai/settings でAPIキーを作成します
)

response = client.chat.completions.create(
    model="google/gemma-4-31B-it",
    messages=[
        {"role": "user", "content": "3.11 and 3.8, which is greater?"}
    ],
    extra_body={
        "chat_template_kwargs": {
            "enable_thinking": False
        }
    },
)

推論 を有効にする

モデルが前述のサポートされるモデルの表でDisabled by defaultと記載されている場合は、前述のコードスニペットでenable_thinkingフラグをTrue (Python) またはtrue (Bash) に設定すると、推論 を有効にできます。