Anthropicの新AI『Claude 3.7 Sonnet』が公開！「o1」を超える衝撃性能だった

2025年2月26日2025年3月13日

Anthropicが発表した「Claude 3.7 Sonnet」は、生成AIの進化を大きく前進させるモデルです。今回のアップデートでは、ハイブリッド推論機能を搭載し、高速な応答と深い思考の両立を実現しました。これにより、ユーザーが瞬時に答えを求める場合でも、じっくりと熟考した答えを求める場合でも柔軟に対応できます。

企業が求めるスピードと精度のバランスが取れることで、実用性が大幅に向上しました。数理推論やコーディングの精度も強化され、AIの技術支援の幅がさらに広がっています。

AI導入コンサルタント

藤井俊太（Shunta Fujii）

AIのスペシャリストとして、最新のAI情報を常にキャッチ、アップデートしている。自らもAI導入コンサルタントとして活動し、主に生成AIを駆使した業務効率化、生産性向上、新規事業開発を行なっている。
AIの総合情報サイト「AInformation」は、AIに関する専門的な情報やサービス・プロダクトを解説、紹介するWebメディア。AIの専門家集団の編集部がAIの活用法、最新ニュースやトレンド情報を分かりやすく発信していいます。藤井俊太のプロフィール

Claude 3.7 Sonnetの新機能と強化点

項目	アップデート情報
主な特徴	生成AIの進化を推進し、処理速度と精度のバランスを実現
新機能 – ハイブリッド推論	ユーザーの目的に応じて思考の深さを調整できる機能
標準モード（Standard）	短時間で回答を生成するモード（雑談や簡単なタスク向け）
拡張思考モード（Extended Thinking）	複数の推論ステップを踏み、より正確で論理的な回答を生成
新機能 – Claude Code	AIがコード解析、ファイル編集、テスト実行、GitHubコミットを支援
開発時間の短縮	開発タスクの所要時間が45分→数分に短縮される事例あり
長文処理能力	最大128,000トークン対応で長文要約や技術文書の分析が可能
ユーザー評価	エンジニアの作業時間短縮、ChatGPT-4より制限が少なく実用的
メリット	コーディング支援の強化、長文処理能力の向上、スピードと精度のバランスが良い
デメリット	拡張思考モードを使うと応答が遅くなることがある

Claude 3.7 Sonnetのアップデート早見表

ハイブリッド推論で状況に応じた回答が可能に

従来のAIモデルでは、シンプルな質問も複雑な推論を要する質問も同じ処理方法で対応していました。しかし、Claude 3.7 Sonnetでは、ユーザーの目的に応じて思考の深さを調整できる仕組みが採用されています。

通常モード（Standard）: 短時間で回答を生成するモード。雑談や簡単なタスクに適している
拡張思考モード（Extended Thinking）: 複数の推論ステップを踏むことで、より正確で論理的な回答を生成するモード

この機能により、計算コストを抑えながらも精度を向上させることが可能になりました。

コーディング支援の大幅な進化

開発者向けに新たに「Claude Code」という機能が追加されました。これはAIがコードベースを解析し、ファイル編集やテストの実行、GitHubへのコミットまでを一括で支援するツールです。

Anthropicの内部テストでは、開発タスクの所要時間が45分から数分に短縮される事例も報告されています。特にソフトウェア開発において、AIがサポートツールの枠を超え、開発プロセスの一部として機能する段階に進化したことが大きなポイントです。

128,000トークン対応の長文処理

Claudeシリーズの特徴でもある長文処理能力が、Claude 3.7 Sonnetではさらに強化されました。最大128,000トークンまでの入力を処理できるため、長時間の会議記録の要約や分厚い技術文書の分析も可能になっています。

この強みを活かし、企業では社内文書の自動整理やデータベースからの情報抽出といった業務効率化の用途にも活用され始めています。

ベンチマークの結果

ソフトウェア開発で実際に直面しがちな問題を想定したベンチマーク「SWE-bench Verified」では、62.3％という正答率を記録したそうです。さらに、拡張思考モードを使うと70.3％にまで達しました。
これは、同じベンチマークで測定されたClaude 3.5 Sonnet（49.0％）、o1（48.9％）、中国発のLLM「DeepSeekR1」（49.2％）と比較しても、かなり高い数字といえます。

「SWE-bench Verified」は、アプリケーションの設計やテスト、バグ修正など、ソフトウェア開発のさまざまな段階で起こりうる課題を想定して作られています。
そのため、ただ文章を処理する能力だけでなく、複雑な論理の推論やトラブルシューティングのスキルを総合的に評価できるのが特徴です。

こうした実務に近い課題への対応力を測定することで、AIモデルが開発現場でどの程度役に立つのか、より的確に把握できることが期待されています。

Claude 3.7 Sonnetと競合AIの比較

Claude 3.7 Sonnetが他の大規模言語モデルとどう違うのか、主要な競合モデルと比較してみます。

スクロールできます

	Claude 3.7 Sonnet	ChatGPT-4	Google Gemini 1.5	Mistral（オープンソース）
モデル	高精度なLLM	高精度なLLM	高精度なLLM	オープンソースLLM
知識レベル	ChatGPT-4と同等	非常に高い	高い	低い
処理速度	高速	遅い	普通	高速
コストパフォーマンス	最適化されている	高コスト	高コスト	無料または低コスト
長文処理	128,000トークン	長文処理対応	100万トークン	短文向き
マルチモーダル対応	非対応	非対応	対応	非対応
フィルタリング精度	適切な情報提供	一部回答不可あり	未評価	未評価
カスタマイズ性	低い	低い	低い	高い

Claude 3.7 Sonnetと競合AIの比較表

ChatGPT-4（GPT-4）との違い

OpenAIのChatGPT-4は知識量と推論能力に定評があるモデルですが、処理速度が遅く、利用コストが高い点が指摘されています。

Claude 3.7 Sonnetは、ChatGPT-4と同等の知識レベルを維持しながら、処理スピードとコストパフォーマンスを最適化している点が強みです。また、ChatGPT-4では一部の質問に対し「回答できません」と表示されるケースが多いのに対し、Claude 3.7 Sonnetでは適切なフィルタリングを行いながら、必要な情報を提供する精度が向上しています。