Claude Sonnet 4.6 実務導入ガイド：長文・安全・開発導線で「PoC止まり」を終わらせる

なぜAI導入は「PoCで止まる」のか

なぜAI導入は「PoCで止まる」のかの図解

AIは賢くなりました。それでも現場で詰まる理由はだいたい同じです。

どの資料を読ませるかが毎回バラバラ（入力が不安定）
出力の合格ラインが決まっていない（評価がない）
誰が責任を持つか不明（承認とログがない）

つまり、問題はモデルより“回る仕組み”です。

Sonnet 4.6で増えた「現場で使える選択肢」だけ押さえる

1) 一度に読める量が大きい（200K、条件付きで1M）

Sonnet 4.6は200Kの文章量を扱えます（さらに1Mはベータ）。 (Claude)
ただし200Kを超えると割増料金（入力2倍・出力1.5倍）が自動適用されます。 (Claude)

ポイント：“入るか”より“運用できるか”。まず200K運用で勝つ方が成功率が上がります。

2) 出力が長く書ける（最大64K）

Sonnet 4.6は最大64K出力に対応しています。長い要約、仕様の洗い出し、手順書の生成が途中で途切れにくくなります。 (Claude)

3) 「考える深さ」を雑にコントロールできる（adaptive + effort）

Sonnet 4.6はadaptive thinking対応。古い方式（budget_tokens）は将来削除予定です。 (Claude)
“どれだけ深く考えるか”はeffortでざっくり調整できます（low/medium/high）。 (Claude)

ポイント：実務では「いつも最強設定」ではなく、“いつ深く考えさせるか”を決める方がコストと品質が安定します。

4) 検索・取得・コード実行などのツールが「正式版」扱いになった

Web取得（fetch）やコード実行など、業務で使いがちなツールが一般提供（GA）として整理されています。 (Claude)

まず決める：Sonnet 4.6を入れて「どの仕事を勝つか」

AIキャリア相談＆実務AI活用はこちらから無料相談AIキャリア相談＆実務AI活用は
こちらから無料相談

導入がうまくいくのは、最初の勝ち場所を間違えない時です。

長文を読む仕事：規約・契約・議事録・設計書・監査資料
条件分岐が多い仕事：受付→振り分け→テンプレ選択→確認→記録
開発導線に乗せられる仕事：差分・レビュー・テストができる成果物（PR、仕様、手順書）

Sonnet 4.6は、各種プラン/Claude Code/API など広く提供され、無料枠もSonnet 4.6が既定になっています（＝社内展開の障壁が下がる）。 (Anthropic)

PoC止まりを終わらせる「手戻りが少ない順番」

ステップ1：タスクを3つに分けて、最初の勝ち筋を選ぶ

読む（要約/比較/抜け漏れ）：正誤が取りやすく、副作用が小さい
書く（文章整形/テンプレ化）：成果が見えやすいが、誇張リスクに注意
動かす（自動化/ツール実行）：効果が大きいが、権限設計が必須

最初は基本的に「読む」から入るのが堅い。〔原理〕

ステップ2：入力を固定する（プロンプトより効く）

最低限、毎回これを揃えます。

目的：何を決めたいか（例：リスクを洗い出す、合意点をまとめる）
禁止：言い切り禁止、根拠がない内容は禁止、など
材料：対象文書（そのまま貼る or 参照先を決める）
出力形：箇条書き／表／JSON（固定）

ステップ3：安全を「運用で止める」

モデルに期待しすぎず、仕組みで事故を止めます。

禁止事項（個人情報・未公開情報・誇大表現など）
承認ポイント（どこで人がOKするか）
ログ（誰が・何を入力し・何が返り・何を実行したか）

必要なら推論をUSに限定する設定もできますが、対象モデルでは価格係数が上がります（例：US-onlyは1.1x）。 (Claude)

ステップ4：評価セット（10件）を作って、改善を回す

「良さそう」で止めないために、最小でもこれだけ作ります。

代表タスク10件（入力と期待の形）
NG例（やってはいけない出力）
採点（根拠のある記述か／形式を守ったか／抜け漏れ）

2週間でやる「最小の本番化テスト」

Day 1–2：代表タスク10件を集める（失敗しても被害が小さいもの）Day 3–4：入力テンプレ・出力テンプレを固定Day 5–7：実行→採点→失敗パターンを分類Week 2：改善してもう一周→合否判定

合格ライン例

“根拠のない言い切り” 0〜1件/10
形式違反 2件未満/10
修正往復 1回以内/件（8件以上）

すぐ使えるテンプレ（わかりやすい日本語版）

テンプレ1：長文を「5分で判断できる形」にする

あなたは業務の整理役です。次の文書を読み、事実と判断材料を分けてまとめてください。

【このまとめの目的】
- 責任者が5分で「論点・リスク・次の手」を判断できるようにする

【やってはいけないこと】
- 文書に書かれていない内容を“事実”として言い切らない
- 根拠がない推測で穴埋めしない

【書き方（固定）】
1) 結論（3行）
2) 重要ポイント（箇条書き）
3) 未決事項（担当/期限があれば書く）
4) リスク（どこが根拠か短く引用）
5) 次にやること（優先度つき）

【文書】
---
ここに貼る
---

テンプレ2：要件定義を「穴あきチェック」する

次の要件から、現場で揉めやすい“穴”を見つけてください（曖昧・未定義・矛盾）。

【チェック観点】
- 用語の定義（同じ言葉の意味が揺れていないか）
- 例外時（失敗/タイムアウト/再試行）
- 権限（誰が何をできるか）
- 記録（後から追えるログがあるか）
- 性能（遅いと困る場面はどこか）

【出力（固定）】
- 指摘：…
- 根拠：”…“（該当箇所を短く引用）
- 影響：…
- 直し案：…
- 確認したい質問：…

【要件】
---
ここに貼る
---

テンプレ3：根拠つき回答（監査できる形）

次の質問に答えてください。ただし必ず「文書の該当箇所」を短く引用してください。

【ルール】
- 引用できないなら「根拠が見つからない」と書く
- 推測で埋めない
- 断定ではなく条件つきで述べる

【質問】
...

【文書】
...

【出力（固定）】
- 回答：
- 根拠（引用）：
- 根拠が足りない点：
- 追加で欲しい情報：

実装の最小設計：LLMを“業務部品”にするラッパー

やるべきことは単純です。アプリ側で吸収します。

入力チェック（個人情報が入っていないか、サイズ上限）
JSON検証（壊れたら再試行）
ログ（入力/出力/モデル/設定/担当/stop_reason）
再試行（回数制限、タイムアウト）
承認（ツール実行や外部送信の前に人がOK）

ツール（fetch/コード実行など）が正式提供になっている分、“どこまで自動でやっていいか”の線引きが重要になります。 (Claude)

コード例（最小）：adaptive + effortで呼ぶ

TypeScript（公式SDKの形に寄せた最小例）

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({ apiKey: process.env.ANTHROPIC_API_KEY! });

export async function summarize(doc: string) {
  const prompt = `
あなたは業務の整理役です。事実と判断材料を分けてまとめてください。

【禁止】
- 文書にない内容を言い切らない
- 推測で穴埋めしない

【出力】JSONのみ
{
  "conclusion": "string",
  "points": ["string"],
  "risks": [{"risk":"string","quote":"string"}],
  "next_actions": [{"action":"string","priority":"P0|P1|P2"}]
}

【文書】
${doc}
`.trim();

  const res = await client.messages.create({
    model: "claude-sonnet-4-6",
    max_tokens: 6000,
    thinking: { type: "adaptive" },
    output_config: { effort: "medium" },
    messages: [{ role: "user", content: prompt }],
  });

  const text = res.content[0].type === "text" ? res.content[0].text : "";
  return JSON.parse(text);
}

TypeScript SDKのmessages.createで呼び出せます。 (Claude)

Python（ドキュメント例と同形）

import anthropic, json

client = anthropic.Anthropic()

def ask(doc: str):
    res = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=6000,
        thinking={"type": "adaptive"},
        output_config={"effort": "medium"},
        messages=[{"role": "user", "content": doc}],
    )
    return res.content[0].text

thinking: adaptiveとoutput_config.effortの組み合わせが推奨です。 (Claude)

コストで失敗しないコツ（ここだけ守る）

200K超は割増：入力2倍・出力1.5倍。頻度が高いなら“入力削減”をKPIにする。 (Claude)
価格はモデル別に明示（Sonnet 4.6のベース単価も表で確認できる）。 (Claude)

まとめ：次にやること

代表タスク10件で評価セットを作る
入力（目的/禁止/材料/出力形）を固定する
ログ＋承認ポイントを先に決める
まず200K運用で勝ち、1Mは例外案件に限定する (Claude)

必要なら、あなたの事業（退職/給付/人材紹介）で「最初に勝つべき10タスク」をこちらで仮置きして、2週間の評価セット（入力テンプレ＋採点表）まで一気に作るところまで落とします。

目次