Anthropicは2025年2月25日、同社が開発する生成AI Claudeシリーズの最新モデルである「Claude 3.7 Sonnet」を公開しました。
今回PROMPTYでは、Claude 3.7 Sonnetの性能や特徴を実際に使いながら解説していきます。
ぜひ最後までご覧ください。
Claudeとは
Anthropic社のClaudeは、AnthropicというAI研究企業が開発した大規模言語モデル(LLM)です。Anthropicは、AIの安全性と倫理性に重点を置いており、Claudeもその理念に基づいて設計されています。
Claudeは、自然言語処理のタスクを効率的にこなすことができ、テキストの生成、質問応答、翻訳、要約など、さまざまな用途に利用されます。
2024年6月21日にはClaude 3.5 Sonnetがリリースされていましたが、2025年2月25日にその最新モデルである「Claude 3.7 Sonnet」が公開されました。
Claude 3.7 Sonnetとは
Claude 3.7 Sonnetは、Anthropic社が2025年2月24日(日本時間では2月25日)に発表したClaudeシリーズの最新モデルです。
市場初の「ハイブリッド推論モデル」と位置付けられており、従来のモデルが即座に回答するモードのみだったのに対し、Claude 3.7 Sonnetでは「標準モード」(迅速な応答)と**「拡張思考モード」(時間をかけた段階的な思考)の二つを単一のモデル内に備えています。興味深いことに、拡張思考モードを有効にするとモデルの「考えている過程(思考プロセス)」が生の形でユーザーに可視化される点も特徴です。
Claude 3.7 Sonnetの特徴
①2種類のモードを搭載
Claude 3.7 Sonnetは、市場初の「ハイブリッド推論モデル」と位置付けられています。
従来のモデルが即座に回答するモードのみだったのに対し、Claude 3.7 Sonnetでは「標準モード」と「拡張思考モード」の二つを単一のモデル内に備えています。
標準モードでは、従来の対話型生成AIのように、入力したプロンプトに対して即座に応答・回答を出力します。拡張思考モードでは、即座に回答はせずに、推論過程を明示しつつ回答を出力します。
標準モード | 拡張思考モード | |
特徴 | 従来の対話型AI通り、プロンプトに対し即座に応答 | 推論過程を明示しつつ、時間をかけて応答 |
それぞれの使用場面 | ・一般的なコンテンツ生成・基本的なコーディング支援・日常的なエージェントタスク | ・複雑な分析:財務、法務、データ分析・高度なSTEM問題:数学、物理学、研究開発・長文脈の処理:広範な入力からの情報の処理と統合 |
参考:Anthropic
②推論・問題解決能力の向上
Claude 3.7 Sonnet最大の特徴である拡張思考モードは、モデルが回答を出す前に内省的な推論を繰り返すことで、数学や物理学の問題解決、複雑な指示の理解といったタスクで性能を大きく引き上げます。
従来のClaude 3.5 Sonnetが既に高度な大学レベルの知識(MMLU)や推論(GPQA)で業界トップ水準の成績を収めていましたが、Claude 3.7ではより難易度の高い問題に対しても正確な回答率が向上しています。
加えて、Claude 3.7 Sonnetはマルチモーダルな課題に対する適応力も高められており、テキスト以外の入力やツール使用を伴うタスクでも前モデルより優れた能力を示しています。Anthropic社による評価ベンチマーク「TAU-bench」(ツール操作やユーザー対話を含む複雑タスクの評価)では、Claude 3.7 Sonnetが従来モデルを凌駕し最先端の性能を記録しています。
引用:Anthropic
③コーディング能力の向上
Claude 3.7 Sonnetはコーディング(プログラミング)に関する性能が飛躍的に向上した点が大きな特徴です。
Anthropicは本モデルについて「これまでで最高のコーディング能力を持つモデル」と評しており、特にフロントエンドWeb開発や大規模コードベースの扱いで高い能力をいろくしています。社外の初期テストでも、例えば開発者ツールのCursorは「Claude 3.7 Sonnetは現実世界のコーディングタスクにおいて再びベスト・イン・クラスの性能を示した」と報告し、巨大なコードベースの理解から高度なツール使用に至る様々な面で大幅な改良が見られたと述べています。
Early testing demonstrated Claude’s leadership in coding capabilities across the board: Cursor noted Claude is once again best-in-class for real-world coding tasks, with significant improvements in areas ranging from handling complex codebases to advanced tool use.
引用:Anthropic
デザインプラットフォームのCanvaの評価でも、Claude 3.7は常に本番環境レベルの質のコードを生成し、デザイン上のセンスも優れており、バグの少ないコードを出力したとされています。
これら外部評価からも、Claude 3.7 Sonnetのコーディング能力が現行モデル中トップクラスであることが確認できます。
④回答品質の向上
安全性と応答品質の面でも、Claude 3.7 Sonnetは前モデルから改良されています。
不要にユーザーの要求を拒否してしまうケース(誤検知による応答拒否)をClaude 3.5から45%削減するよう調整されており、ユーザーにとって使いやすいモデルとなっています。
同時に有害なリクエストには適切に拒否・制限を行う調整も引き続き強化されており、安全性と利便性のバランスが改善されています。
これらの改良により、Claude 3.7 Sonnetは今までのClaudeシリーズの中で最も安全に使用できるモデルとなっています。
⑤コーディング支援のAIエージェント
Anthropicは開発者向けの新ツール「Claude Code」を研究プレビューとして発表しています。
Claude Codeはターミナル(コマンドライン)から直接Claudeにコーディングタスクを委任できるエージェント的ツールで、コードの検索・閲覧、ファイル編集、テストの実行、GitHubへのコミットまでを自動で行い、必要に応じてユーザーに逐一確認を入れながら進行します。
Anthropic社内では既にテスト駆動開発や大規模リファクタリングに不可欠な存在となっており、初期テストでは人間が45分以上要する修正タスクを単一の実行で完了させるなど、生産性向上に寄与したとされています。
このようにClaude 3.7 Sonnetはソフトウェア開発分野で従来モデル以上に強力なパートナーとなることが期待されます。
Claude 3.7 Sonnetの性能
各モデルとのベンチマーク評価比較
AnthropicはClaude 3.7 Sonnetが競合モデルをベンチマークで凌駕する性能を持つとアピールしています。公式発表によれば、Claude 3.7は指示追従、一般的な推論能力、マルチモーダル対応、エージェント的コーディングなど幅広い項目で卓越しており、数学・科学分野では拡張思考モードにより一段と性能が伸びています。
OpenAIのChatGPTシリーズの最上位モデル(ChatGPT-o1やo3-high)に対しても複数のベンチマークテストで上回る結果を記録しています。「AIME2024’」や「Graduate-level reasoning」の評価を見ると、xAI社が提供しているGrok3には及ばずの結果になっていたりと、各テスト単位で見ると評価の良し悪しはあるものの、全体で見ると非常に総合力に高いモデルと言うことができます。
Claudeシリーズ間での面白い比較
Anthropicが公開している性能評価にもう1つ面白いテスト結果が存在します。
AIモデルに画面認識と基本的な操作を行えるようにして、ポケモンをプレイできるようにしてどこまで攻略できるかというテストであり、以下がその結果です。
引用:Anthropic
Claude 3.7は拡張思考により戦略を試行錯誤しつつゲームを継続し、ジムリーダー3人を倒してバッジを獲得することに成功しています。
このベンチマーク評価を見ると、Claude 3.7 Sonnetの性能(考える力)が歴代のClaudeシリーズと比較して極めて高いことが確認できます。
「難しい問題に粘り強く取り組み解を見出す」能力が向上したClaude 3.7 Sonnetは、ゲーム以外にも現実世界の複雑な課題解決やマルチステップの推論を要する状況で、以前のモデル以上に有用な成果をもたらすと期待されています。
Claude 3.7 Sonnetの料金
Claude 3.7 Sonnet自体は、無料でClaudeサービスページ上で誰でも使用することができます。しかし、拡張思考モードの利用には、PROプラン以上の有料プランへの加入が必要です。
PROプラン | 月額$20(2,993円)※2025年2月25日現在 |
Teamプラン | 月額$30(4,489円)※2025年2月25日現在 |
また、Claude 3.7 SonnetはAPI経由(Anthropic APIやAWS Bedrock、Google CloudのVertex AI経由)で利用可能です。
従来モデル(Claude 3.5 Sonnetなど)と同価格で提供されるとのことで、API料金は以下の通りです。
入力トークン(100万あたり) | $3 |
出力トークン(100万あたり) | $15 |
拡張思考モードで消費される思考用トークンも出力トークンとして計算されます。
なおコンテキストウィンドウ(文脈保持可能なトークン長)はClaude 3.7 Sonnetでも大規模なコンテキストを扱えることは維持されており、最大出力長は128Kとなっています。
Claude 3.7 Sonnetを使ってみた
Claude 3.7 Sonnetの思考能力とコード生成能力について、実際に使って確かめてみました。
①思考能力(ブレスト)
生成AIを題材にした面白そうな記事のネタを10個出すように依頼しました。

体感値ではありますが、Claude 3.5 Sonnetを使用していた時と比較してブレスト後に出てくる案のクオリティが上がっているように感じます。
②コード生成(アプリの作成)
魚が土管を避けて進むアプリの作成を依頼した所、30秒ほどでゲームアプリを作成してくれました。

③LPの作成
架空の商品「寝れるくん」の商品概要を入力してLPを作成してもらいました。

自動でコピーライティング考えてくれています。

Claude 3.7 Sonnetの今後の展望
従来モデルからの飛躍的な進化により、迅速な回答から高度な推論・コーディングまで柔軟にこなすClaude 3.7 Sonnetは、今後様々な分野で活用が期待されます。
その一方で、拡張思考の可視化など新しい試みも含むため、実運用を通じたフィードバックや安全性検証も重ねながら、さらなる洗練が進められていく見込みです。
OpenAI、xAI、googleが特に力を入れており、かつ現モデルに実装しているDeep Researchなども今後実装されていくことが期待されます。
まとめ
今回はClaude 3.7 Sonnetについてご説明しましたが、いかがだったでしょうか。
特にコーディングの能力が顕著な本モデルですが、従来の対話型AIとして活用する場合でも非常に高いパフォーマンスを発揮しますので、ぜひご活用ください。
PROMPTYでは、今後も生成AIに関する新情報をお届けしますので、ぜひご覧ください。