【生成AI戦争】無料のClaude 3 SonnetはChatGPT GPT-4の代役になるか？: 最新AI技術の徹底比較

はじめに

ChatGPTの登場によって一気に加速した生成AIブーム。ビッグテックが独自の大規模言語モデルの開発に勤しむ中、元OpenAIメンバーによって設立されたAnthropic社の生成AI「Claude 3」が大きな注目を集めています。ブームを牽引するChatGPTと何が違うのか、どちらの方が優れているのか…。徹底比較し、どちらが現時点で最適な選択肢なのかを探ります。

Claude 3の概要

Claude 3は、Anthropic社が2024年3月4日に発表した新型AIモデルです。3つのモデルがあり、それぞれ性能やコストが異なります。

Haiku：最も高速でコストパフォーマンスが高い無料モデル。チャートや画像を含む研究論文を3秒で読み取ってくれます。
Sonnet：従来モデルのClaude 2の2倍の回答速度を誇る無料の中位モデル。素早い応答が求められるタスク向きです。
Opus：Claude 2と同等の速度で高い性能を誇る有料の上位モデル。学部レベルの専門知識(MMLU)、大学院レベルの専門的な推論(GPQA)、基礎的な数学(GSM8K)でChatGPTのGPT-4を上回る高スコアを記録しています。ChatGPTの最大のライバルになりそうです。

Meet Claude

Claude is AI for all of us. Whether you're brainstorming alo...

私はChatGPTのヘビーユーザーで、毎日のようにGPT-4のお世話になっています。それを上回る性能となると、場合によっては乗り換えを検討してもいいかもしれません。

Claude 3 SonnetとChatGPT GPT-4の比較

Claude 3とChatGPTの比較記事はすでにいくつも公開されていますので、ここでは私なりの観点で比較していきます。ずばり、Claude 3の無料モデルであるSonnetと、ChatGPTの有料モデルであるGPT-4の性能比較です。

上の表を見てもわかるように、Claude 3 Sonnetは大学院レベルの専門的な推論(GPQA)など、複数のスコアでGPT-4を上回っています。GPT-4ユーザーにとって、「何をするためにGPT-4を使っているか」が使い分けの鍵になりそうです。

それでは比較していきましょう。

まず第一に、この比較をしたのは夜9時頃です。GPT-4は利用者で混み合う時間帯の制度が下がるという肌感覚があるので、そこはGPT-4に不利かもしれません。

異なる生成AIモデルをどのように比較検討するか

入力文：Claude 3とChatGPT-4の比較を作成する上で、どのようなやり方で比較検証すればいいでしょうか？例えば、文章読解能力や翻訳、数学、コードの生成などがいいのではないかと思っています。

GPT-4の回答

Claude 3とChatGPT-4を比較検証するには、それぞれのシステムの能力を評価するための具体的なタスクやテストケースを用意するのが良い方法です。あなたが提案したように、文章読解能力、翻訳、数学、コード生成などの分野を対象とすることは理にかなっています。以下に、それぞれの分野における比較検証の方法をいくつか提案します。

### 文章読解能力
1. **理解度テスト**：様々な難易度のテキストを両システムに読ませ、内容に関する質問を行い回答の正確性を評価します。
2. **要約能力**：長い記事や文書を提示し、その要約を作成させます。要約の正確さと要点の把握能力を評価します。
3. **感情分析**：異なる感情を含むテキストを提供し、それらの感情をどのように識別するかを比較します。

### 翻訳
1. **様々な言語ペア**：複数の言語ペアで翻訳を行い、その品質を評価します（例：英日、日英、英中など）。
2. **特殊文脈の翻訳**：専門的な用語や方言を含む文の翻訳を行い、どの程度正確に翻訳できるかを確認します。

### 数学
1. **基本的な計算問題**：加減乗除や方程式の解など、基本的な数学問題を解かせます。
2. **高度な問題**：より複雑な数学問題（例：微分、積分、統計問題）に挑戦させ、解法の正確性と説明の質を評価します。

### コード生成
1. **基本的なプログラミング課題**：簡単なアルゴリズムや関数を書くよう求めます。
2. **バグ修正**：既存のコードに意図的にバグを仕込み、それを修正させます。
3. **実践的なプロジェクト**：小規模ながら実践的なプログラミングプロジェクトを提案し、その開発過程を評価します。

### 比較の方法
– **タスクの標準化**：両システムに同じタスクを与え、パフォーマンスを比較するためには、タスクの内容が同一であることを確認します。
– **評価基準の明確化**：何をもって「良い」または「悪い」と判断するかの基準を明確にします。
– **多様なデータセット**：一方のシステムが他方よりも優れているかもしれない特定の種類のデータや文脈に偏らないようにします。
– **ブラインドテスト**：評価者がどのシステムの回答かを知らない状態で評価を行うことで、偏見を排除します。

最後に、各システムがアップデートされる可能性も考慮して、比較検証の時点を明確に

記録しておくことが重要です。また、テストの結果は、各システムの特定のバージョンに対するものであり、将来的なパフォーマンスを保証するものではないという点を認識しておく必要があります。

入力文で示した比較例を詳しく比較するための手法を提案してくれています。

Claude 3 Sonnetの回答

Claude 3とChatGPT-4を比較検証する際には、様々な側面から公平に評価することが重要です。おっしゃる通り、文章読解能力、翻訳、数学、コーディングなどは良い評価項目になると思います。さらに、以下のようなポイントも検討するといいでしょう。

一般的な知識 – 歴史、科学、地理、文化などの幅広い知識を問う問題で評価する。

論理的思考力 – 論理的なパズルや課題を与え、推論能力を見る。

創造性 – 物語や詩の書き方、アイデア出しなど、創造的な課題を課す。

タスク対応力 – 実用的な様々なタスクを与え、柔軟性を評価する。例えばスケジュール調整、要約、分析など。

対話能力 – 自然な対話ができるかを人間とのやり取りで判断する。

倫理観 – 倫理的な質問に対する判断力を確認する。

学習能力 – 新しい情報を取り入れる力を試す。インタラクティブな問題を出すなど。

複数の評価者によるブラインド・テストや、人間との比較なども有効でしょう。評価項目を多角的に設定し、偏りのない公平な比較検証を心がけることが重要です。

判定：Claude 3 Sonnetの勝ち！

入力した比較例の他にどういった方法があるか、別の手段を提案しています。

比較したところ、入力文の「どのようなやり方で比較検証すればいいでしょうか？」の解釈が異なり、それぞれ別の回答が生成されたような感じですね。どちらがいいと思うかは好みですが、Claude 3 Sonnetのほうが好きです。「筆者の気持ち」は「下に示す例以外のやり方はあるか」だったので。

ということで、Claude 3 Sonnetが提案してくれた案を取り入れながら、さらに比較していきます。

文章の読解能力

入力文：以下は、「中学１年生２５０人の半数超、理科の課題で同じ間違い…教諭の違和感の正体は生成ＡＩの「誤答」」というタイトルの記事です。内容を読み、記事でどういったテーマが扱われており、どのような問題提起があるかを教えてください。

Yahoo!ニュース

Yahoo!ニュースは、新聞・通信社が配信するニュースのほか、映像、雑誌や個人の書き手が執筆する記事など多種多様なニュー...

GPT-4の回答

この記事は、中学生が理科の課題で同じ間違いをしてしまった事件について報じています。主なテーマは、生成AI（人工知能）が提供する情報の信頼性と、その誤情報が教育に与える影響です。

記事の内容によると、東京都内のある私立中学校で、1年生の半数以上が理科の課題で「唾液アミラーゼが胃で食べ物を消化する」という間違った解答をしました。原因は、生徒たちがインターネットの検索サイトに搭載された生成AIから得た情報に基づいていたことにあります。この誤答は食品会社キユーピーのホームページに記載された情報が生成AIによって提供されたものでした。

この事態は、学習者が情報源としてAIやインターネットをどのように利用するか、そしてその情報の正確性をどう確認するかという問題を提起しています。生徒たちはAIによって提供された回答を批判的に評価せずに受け入れてしまいました。また、生成AIが信頼できる情報源から得たとは限らないデータに基づいて回答を生成する可能性も示唆されています。

問題解決の一環として、キユーピーは間違った情報を修正し、教員は生徒たちに唾液アミラーゼの正しい働きについて教えました。この出来事は、学習者にとって情報の正確性を確認する重要性を理解する良い機会となりました。

さらに、医学博士の江田証氏は、AIを盲信することの危険性と、特に健康や生命に関わる医学的な情報においては、情報の正確性を他の信頼できる文献などで確認する必要があると指摘しています。この事件は、教育現場における情報リテラシーの重要性と、AIの利用における注意点を浮き彫りにしています。

Claude 3 Sonnetの回答

この記事は、生成AIの出力する情報の正確性とその危険性について警鐘を鳴らすものです。

主なテーマは以下の通りです。

生成AIが誤った情報を出力し、多数の生徒がそれを鵜呑みにしてしまったケース

生成AIの出力を正確性無く利用することの危険性

特に医療や健康など、人命に関わる情報ではAIに全面的に依存すべきではないこと

具体的には、理科の課題で生成AIが「でんぷんは胃で消化される」といった誤った情報を出力し、生徒の半数以上がそれをそのまま解答として書き写してしまった事例が報告されています。

この一件を受け、課題作成の元となったキユーピー社がウェブサイトの記述を修正する一方で、生成AIの誤りを指摘した教諭は、生徒にAIを鵜呑みにせず自ら調べることの大切さを学ばせる良い機会となったと評価しています。

また、医学博士の専門家は、生命や健康に関わる情報では特にAIの出力を鵜呑みにすることは危険であり、他の情報源で裏取ることが不可欠だと指摘しています。

要するに、便利な生成AIではあるものの、出力される情報には誤りが含まれる可能性があり、特に重要な分野では過度に依存すべきではないという問題提起がなされているということです。

判定：Claude 3 Sonnetの勝ち！

Claude 3 Sonnetのほうが簡潔にまとめています。生成AIにこういったタスクをお願いする時は「長い文章のテーマや意味をサッと理解したい」というケースだと思うので、今回もClaude 3 Sonnetの勝ちです。

一般的な知識

入力文：かつては、鎌倉幕府が樹立されたのは「1192年」だとされており、学生たちの間では「いい国作ろう鎌倉幕府」という語呂が流行しました。しかし、研究の結果、この認識は変わっています。どういった経緯で認識が改められたのか、そしてそれが学生たちにどういった影響を与えたのかを教えてください。

GPT-4の回答

かつては、鎌倉幕府の樹立年が1192年とされていましたが、近年の研究でその認識に変化が生じています。この変更は、主に歴史資料の再検証や新たな資料の発見によってもたらされました。

伝統的には、源頼朝が征央権（全国の武士の指揮権）を得た1192年を鎌倉幕府成立の年として捉えるのが一般的でした。この年に頼朝は「征夷大将軍」に任命され、日本史上初の武家政権の基礎を築いたとされていました。しかし、歴史研究の進展により、幕府の実質的な樹立はもう少し後、例えば頼朝の死後の鎌倉幕府の体制が整備された時期であるという見解が強まっています。

この見解の変化は、従来の教科書や教育資料で使われていた年代認識を更新する必要があるという課題を生み出しました。特に、学生たちにとっては、従来覚えていた「いい国作ろう鎌倉幕府（1192）」という語呂合わせが古い情報に基づいているという認識を持つ必要があります。教育現場では、このような新しい研究成果を取り入れ、歴史の学びをより正確なものにするための努力が求められています。

一方で、このような歴史認識の変化は、学生たちに歴史は静的なものではなく、新たな発見や研究によって常に更新されていくものであるという重要な教訓を与えます。歴史の解釈が時代とともに変化することを理解することは、歴史学習の重要な側面の一つです。

Claude 3 Sonnetの回答

かつて鎌倉幕府の樹立年は1192年とされていましたが、近年の研究により、この認識が改められました。

1192年説が定着した経緯は明確ではありませんが、中世史の研究が十分でなかった時代の通説であったと考えられています。しかし、1980年代以降、鎌倉幕府関連の古文書の精査や発掘調査が進み、新たな事実が判明しました。

その中で、鎌倉幕府の実質的な始まりを示す重要な出来事として、源頼朝が1185年に「地頭」に任じられ、武家権力を掌握したことが挙げられます。また、1192年は後白河法皇が頼朝に「将軍」の禄を下付したことを示す年であり、幕府の正式な発足の年とは言えないことが分かってきました。

こうした研究の積み重ねにより、現在では1185年頃に鎌倉幕府が実質的に発足し、1192年は将軍職の設置によりその体制が制度化された年と理解されています。

このような認識の変化は、中学校・高校の教科書の記述にも反映されるようになりました。「いい国作ろう鎌倉幕府」の語呂合わせが使えなくなったことで、学生たちにはある種の戸惑いもあったでしょう。しかし、同時に歴史認識が新しい研究成果により見直されていく過程を垣間見る機会にもなりました。

歴史は常に進化する学問であり、新たな事実が判明すれば従来の通説が覆されるのは当然のことです。この一件は、学生に歴史学の動態的な側面を示す良い例となったと言えるでしょう。

判定：Claude 3 Sonnetの勝ち！

GPT-4が「1185年」というキーワードを出せなかった時点でClaude 3 Sonnetの勝ちです。学生への影響は両方ともはっきりした回答をしてくれませんでしたが、実際の影響も少なかったのか…？新しい語呂ができたことを教えてくれたりすると思ったのですが。

創造性（短編小説の執筆）

入力文：以下の3つのテーマをもとに、400字以内の短編小説を書いてください。

１．夏の海
２．２匹の亀
３．オチの一言は「なんでもいいってわけじゃない」

GPT-4の回答

夏の海辺、波の音が穏やかに響く。海岸で遊ぶ子供たちの歓声が、時折、風に乗って届く。そんな中、岩場に佇む2匹の亀。長年の友だち、タロウとジロウだ。

「タロウ、今日は何を探す？」ジロウが訊ねる。

「何でもいいさ。ここには面白いものがたくさんあるからね！」タロウは元気よく答えた。

彼らは、日々海辺で宝物を探すのが日課。貝殻も、カラフルな石も、時には人間の落とし物も。今日は何を見つけるか、そのワクワクが彼らを引き付けてやまない。

探索を続ける中、ジロウが奇妙な形の石を見つけた。「タロウ、これどう思う？」ジロウが得意げに見せる。

タロウはしげしげとその石を眺める。「うーん、なかなかユニークだけど、ちょっとね…」

その時、海から子供の悲鳴が聞こえた。ふたりは慌ててその方向を見る。小さな女の子が、転んで泣いている。タロウはジロウに向かって、「助けに行こう！」と言い、二匹は海を渡って子供のもとへ。

女の子は亀たちを見て驚くが、タロウが優しく「大丈夫？」と声をかけると、彼女は泣き止んだ。そして、笑顔で「ありがとう」と言った。

その夜、星空の下でジロウが言う。「今日は何も見つからなかったね。」

タロウは微笑みながら答える。「いや、僕たちは今日、大切なものを見つけたよ。でも、”なんでもいいってわけじゃない”からね。」

Claude 3 Sonnetの回答

夏休みを迎えた初日、太陽は力強く照りつける海を照らしていた。里帆は両親と一緒に砂浜を散歩していた。

「あれ、あれは?」母親が何かを指さした。距離にあるものを目で追うと、2匹の小さな亀が砂浜を這い回っているのが見えた。

「亀だね。でも海から遠すぎるところにいる」父親が付け加えた。

里帆は亀に近づき、よく見ると2匹は必死に動いているものの、なかなか進めずにいた。海に向かってあちこち這いずり回るばかりだった。

「かわいそうに、助けてあげないと」里帆は亀を優しく持ち上げ、波打ち際に運んでいった。水の中に入れると、2匹はすぐに元気よく泳ぎ始めた。

「やった!無事に海に帰れた」里帆は喜んだ。

しかし、亀は再び砂浜に向かって泳ぎ始めた。上がろうとしている。

「ちょっと!どこ行くの?」里帆は慌てて亀を追いかけた。しかし砂の上では動きが鈍くなり、簡単に捕まえられてしまう。

「これじゃ、いつまでたっても上陸して産卵できないよ」父親が言った。

確かに、亀は自然な行動をとっていただけだった。人間が勝手に判断して、自然の理を無視してはいけないのだ。

「もう一度、ちゃんと海に帰そう。でももし上がってきたら、その時は干渉しない」母親が提案した。

里帆は2匹の亀をしっかりと海に戻した。するとまた陸に向かい始めた。しかし今回は手を出さず、亀が自由に動けるよう見守ることにした。

動物を助けることは大切だが、自然の摂理を理解し、必要以上に介入するべきではない。なんでもいいってわけじゃないのだ。

判定：ルール違反だが、GPT-4の勝ち

両方とも「400字以内」のルールを守ってくれなかったので反則負け…。でも、より文字数が少なくて、「なんでもいいってわけじゃない」というオチが活きていて、かつ面白いのはGPT-4です。これはGPT-4の勝ちにします。

タスク対応力（情シスでのトラブル）

入力文：情報システム部のヘルプデスクに、従業員から「スタートメニューの電源オプションに、Windows Updateの更新メニューが出ているが、更新してもいいのか」という質問が届きました。最近、WSUSサーバからWindows Updateを展開したわけではないので調査したところ、ADサーバのGPO設定のミスで、従業員PCに対して情報システム部内プレビュー用のWindows Updateが当たる設定になっていることがわかりました。この後でやらなければならないのは、「設定を適切に戻し、即座に全従業員に適用する」「全従業員に対してWindows Updateを適用しないよう伝える」です。どのような手順を実行すればいいのかを考えてください。

GPT-4の回答

この状況では、まず誤ったグループポリシーの設定を修正し、その後全従業員に適切な対応を指示する必要があります。以下の手順を実行することをお勧めします。

### 1. グループポリシー設定の修正
1. **ADサーバーへのアクセス**：Active Directoryサーバーにアクセスします。
2. **グループポリシー管理**：グループポリシー管理コンソールを開きます。
3. **誤ったポリシーの特定**：誤って適用されたグループポリシーを特定します。
4. **ポリシーの修正**：該当するグループポリシーを開き、Windows Updateに関する設定を正しいものに変更します。通常は、「自動更新を設定する」や「更新プログラムのインストール日時を指定する」などの項目を見直し、適切な設定にします。
5. **ポリシーの更新と確認**：修正後、グループポリシーを更新し（gpupdate /force コマンドを使用）、変更が適切に適用されているか確認します。

### 2. 全従業員への通知と指示
1. **社内通知の準備**：従業員に送る通知の文案を準備します。内容には、Windows Updateに関する誤ったポリシーが適用されていたこと、修正されたこと、そして今後の対応について明記します。
2. **更新の一時停止**：もし可能であれば、通知には従業員に対してWindows Updateの一時停止方法も記載します。これは、修正されたグループポリシーが全従業員のPCに適用されるまでの一時的な対応として有効です。
3. **通知の配布**：Eメール、社内ポータル、あるいはその他のコミュニケーションツールを使用して通知を配布します。
4. **フォローアップ**：通知後、従業員からの質問に対応し、必要に応じてサポートを提供します。

### 3. 状況のモニタリングと追加対応
1. **状況の監視**：修正されたポリシーが適切に機能しているかを確認し、問題があれば迅速に対応します。
2. **追加のサポート提供**：従業員からの追加のサポートリクエストに応じて対応します。
3. **レビューとフィードバック**：このインシデントからの学びをレビューし、将来的な改善策を検討します。

この手順を実行することで、問題の効果的な解決と、将来的な同様の問題の防止が期待できます。

Claude 3 Sonnetの回答

この状況を適切に解決するためには、以下の手順を実行することをお勧めします。

1. **GPOの設定を修正する**
最初に、ADサーバのGPOの設定を修正する必要があります。情報システム部内プレビュー用のWindows Updateが適用されるように設定されていた箇所を、通常の社内標準設定に戻します。この作業は慎重に行い、他の設定を誤って変更しないよう注意が必要です。

2. **修正したGPOを即座に適用する**
GPOの設定を修正したら、すぐに全従業員のPCに新しい設定を適用する必要があります。GPOの適用には時間がかかる可能性があるため、強制的に適用(gpupdate /force)することをお勧めします。これにより、間違ったWindows Updateが適用される可能性を最小限に抑えることができます。

3. **全従業員に対して通知を行う**
GPOの修正と適用が完了したら、全従業員に対して通知を行います。通知には、以下の内容を含めることをお勧めします。
– 発生した問題の概要説明
– 情報システム部で適切な対応を行ったこと
– スタートメニューに表示されるWindows Updateは適用しないよう注意喚起
– 万が一、Windows Updateを適用してしまった場合の対処方法

4. **従業員からの問い合わせに対応する**
通知後、従業員から追加の質問や問題が発生した場合の対応体制を整備しておきます。問題が発生した際の適切な対処方法をあらかじめ準備しておくことが重要です。

5. **再発防止策を検討する**
この問題の原因となったGPO設定のミスについて、再発防止策を検討します。GPO設定の変更手順を見直したり、複数人によるレビューを義務付けるなどの対策を講じます。

この手順を確実に実行することで、間違ったWindows Updateが適用されるリスクを最小限に抑え、従業員に適切な情報を提供し、円滑な業務運用を維持できるでしょう。

判定：GPT-4の勝ち！

どちらも要望に答えていますが、GPOの修正について詳細な手順を提示しているのはGPT-4です。簡単なタスクではありますが、手順が示されているのは評価したいところ。GPOにGPT-4の勝ちですね。

IT関連の翻訳（Zoom脆弱性のCVE）

入力文：以下は最新のZoom脆弱性についての文章です。内容を翻訳し、どういった脆弱性なのか、どういった対応が必要なのか、対象となるサービスやアプリ、バージョンは何なのかなど、企業の情報システム部として理解するべき情報を教えてください。

CVE-2023-49647: A High-Risk Zoom Vulnerability

CVE-2023-49647 could be exploited to gain elevated rights, p...

GPT-4の回答

この文書は、Zoomの重大な脆弱性CVE-2023-49647についてのものです。内容を翻訳し、理解すべき重要な情報を以下にまとめます。

**CVE-2023-49647: Zoomの高リスク脆弱性**
– **公開日**: 2024年1月10日
– **評価**: Common Vulnerability Scoring System (CVSS) で8.8と評価されています。

**脆弱性の内容**
– **種類**: 特権昇格の脆弱性。認証されたユーザーがローカルアクセスを通じて特権を昇格させ、システム内で不正な操作やアクセスを行う可能性があります。
– **影響を受ける製品**:
– Zoom Desktop Client for Windows（バージョン5.16.10より前）
– VDI Client for Windows（バージョン5.16.10より前、ただし5.14.14と5.15.12は除く）
– Zoom Video SDK for Windows（バージョン5.16.10より前）
– Zoom Meeting SDK for Windows（バージョン5.16.10より前）
– **危険性**: この脆弱性を悪用されると、Zoomセッションやユーザーデータの機密性と完全性に重大な脅威が及びます。

**対応策**
– **ソフトウェアの更新**: Zoomは最新のバージョンでこの問題に対処しています。企業や個人は、最新のアップデートを適用するか、Zoomの公式ダウンロードページから最新バージョンのソフトウェアをダウンロードすることが推奨されます。

企業の情報システム部門としては、使用しているZoom製品が上記の影響を受けるバージョンでないか確認し、必要であれば直ちにアップデートを実施する必要があります。また、このようなセキュリティの脆弱性に迅速に対応するためのプロセスやポリシーを整備し、継続的なセキュリティ対策の強化に努めることが重要です。

Claude 3 Sonnetの回答

この文章は、Zoom Video Communicationsのソフトウェア「Zoom Meetings」に存在する深刻な権限昇格の脆弱性(CVE-2023-49647)について説明しています。

この脆弱性の内容は以下の通りです。

脆弱性の深刻度は8.8(CVSS)と高リスクとされている
認証済みユーザーが、ローカルアクセスを介して権限を昇格できてしまう
これにより、許可されていない操作やシステム内のアクセスが可能になる
Zoomセッションやユーザーデータの機密性と整合性が脅かされる可能性がある
対象となるサービス・アプリとバージョンは以下の通りです。

Zoom Desktop Client for Windows (5.16.10より前のバージョン)
VDI Client for Windows (5.16.10より前のバージョン、5.14.14と5.15.12を除く)
Zoom Video SDK for Windows (5.16.10より前のバージョン)
Zoom Meeting SDK for Windows (5.16.10より前のバージョン)
この脆弱性はsim0nsecurityという研究者により発見されました。

企業の対応としては、最新のZoomソフトウェアへのアップデートが不可欠です。Zoomの公式ダウンロードページから最新バージョンをダウンロード・適用し、この脆弱性に対処する必要があります。最新バージョンにはこの脆弱性に関する修正が含まれています。

Zoomミーティングを業務で利用している企業においては、すみやかに社内のZoomアプリ・製品をアップデートし、この権限昇格の脆弱性からシステムを守ることが重要となります。

判定：引き分け！

共に問題ない精度かと思います。どういった脆弱性で、どういった対応が必要なのかをちゃんと教えてくれていますし、引き分けとします。

結論

Claude 3 Sonnetの3勝2敗1引き分けという結果になりました。記事の要約や読解力が求められるタスクはClaude 3 Sonnetで十分。ただし、タスク対応はGPT-4の方が精度が高いかもしれません。

まだClaude 3 Opusは試していませんが、Sonnetでこの感じなら、GPT-4よりも使えるシチュエーションは多いかもしれませんね…。