生成AIとハルシネーション
ハルシネーションとは
私も日ごろからChatGPTなどを活用している。
その際注意することは、AIの回答内容が必ずしも正しい訳ではないため、回答内容を鵜呑みにしてはいけないということだ。よく、ChatGPTなどの生成AIは「もっともらしく嘘をつく」とも言われており、一見正しいような言い回しの中に嘘が紛れ込んでいる。我々はこれらを予め認識したうえで付き合っていく必要がある。ハルシネーションとは、このもっともらしい嘘のことを呼ぶワードである。直訳すると「幻覚」と訳される。
これが発生する理由は、以下から来ている。
- AIの情報源が古い
- AIの学習データの誤り
- AIが推測で回答
ハルシネーションへの対策とは
ハルシネーションに対し間違いに気づき、是正するためにはファクトチェックを行う必要がある。
これについては、世の中でも課題として取り上げられているため、対策についてはいろいろとネットに挙がっているため、確認してみてもらいたい。その中でも、簡単にできそうな方法として、AI同士でのチェックという方法を実際に試してみた。
1.生成AI同士でチェック
例えば、ChatGPTで得られた回答を、別のGeminiなどのAIで改めて確認する方法である。
試しにやってみたのが以下である。
ChatGPTへの質問:
Q:中小企業診断士の2次試験の概要について教えてください。
A:以下の通り。
中小企業診断士の2次試験は、1次試験に合格した者が対象となる実技試験です。この試験は、中小企業診断士として必要な実践的なスキルや知識を評価するために設けられています。以下にその概要を説明します。
試験形式
2次試験は主に次の3部分から構成されています。
- 事例分析 – 実際のビジネスシナリオに基づいた事例を読み、問題を分析し解決策を提案する。この試験は、受験者の分析力、問題解決能力、および論理的な思考能力を評価します。
- グループディスカッション – 複数の受験者でグループを組み、与えられたテーマや問題について議論を行います。コミュニケーション能力やチームワーク、リーダーシップスキルが評価されます。
- 個別プレゼンテーション – 受験者が事例分析で作成した解決策をプレゼンテーション形式で発表します。プレゼンテーションスキルや説得力が試される場面です。
試験の目的
中小企業診断士としての実務で求められる諸能力、即ち、課題発見能力、課題解決能力、提案力、及びプレゼンテーション能力を総合的に評価し、中小企業の経営支援が適切に行える能力を有しているかを判断します。
試験の日程と場所
2次試験は通常、1次試験の結果発表後、秋頃に実施されます。試験会場は全国各地の主要都市に設けられています。
合格基準
各試験の部分ごとに評価され、総合的な得点に基づいて合格が決定されます。合格基準は年度によって変更されることがありますので、最新の情報は公式サイトや受験案内で確認することが大切です。
以上が中小企業診断士の2次試験の概要です。試験には実務に即した内容が多く含まれるため、事前の準備と対策が非常に重要になります。
診断士2次試験を受けた人ならわかると思うが、上記の赤文字部分の「グループディスカッション」や「プレゼンテーション」は実際の試験にはないため、嘘の部分である。
こちらをGeminiでチェックを依頼してみた。
Q:以下テキストをファクトチェックしてください。
~~以下上記文面を貼付~~
A:以下の通り。
中小企業診断士2次試験 概要 ファクトチェック
概ね正確な記述ですが、一部修正点と補足があります。
試験形式
- 事例分析
- 正確
- グループディスカッション
- 正確
- 個別プレゼンテーション
- 正確
試験の目的
* **正確**試験の日程と場所
* **正確** * 例年11月中旬の日曜日に実施されます。(10月中旬ではなく)合格基準
* **正確** * 最新情報は中小企業診断協会の公式サイトで確認できますが、**令和5年度の合格基準は現時点(2024年4月14日)では発表されていません**。その他
- 試験には実務に即した内容が多く含まれるため、事前の準備と対策が非常に重要になります。(正確)
情報源
- 中小企業診断協会公式サイト:https://www.j-smeca.jp/
- 中小企業診断試験実施要領 令和4年3月:https://www.j-smeca.jp/
以下、補足情報です。
- 中小企業診断士試験は、年に1回実施されます。
- 試験に合格するためには、1次試験と2次試験の両方 に合格する必要があります。
- 中小企業診断士試験に関する詳細は、中小企業診断協会の公式サイト https://www.j-smeca.jp/ を参照してください。
その他
中小企業診断士2次試験について、他に知りたいことはありますか?
結果としては、ファクトチェックがうまく機能せず、グループディスカッションやプレゼンテーションなどの点について、指摘することはなかったので失敗である。ちなみに、他のAIも試してみようと思い、Copilot BingやClaude3などでも試してみたが、いずれも正しく指摘するものはなかった。。
さらにGeminiに以下の質問をしてみた。
Q:本当にグループディスカッションはありますか。ソースはどれですか。
A:その結果が以下である。
はい、中小企業診断士2次試験にはグループディスカッション試験があります。
ソース
- 中小企業診断協会「中小企業診断士試験実施要領」令和4年3月、p.12
- 中小企業診断協会公式サイト:https://www.j-smeca.jp/
試験概要
- グループディスカッション試験は、2次試験のうちの一つです。
- 試験時間は30分です。
- 5~6人の受験者でグループを組み、与えられたテーマについて議論を行います。
- コミュニケーション能力、チームワーク、リーダーシップなどが評価されます。
評価基準
- 課題理解度
- 貢献度
- 論理性
- コミュニケーション能力
- リーダーシップ
採点方法
- 試験官複数名による評価
- 各評価基準ごとに5段階で評価
過去問・模擬試験
- 中小企業診断協会が実施する模擬試験で練習できます。
- 民間企業が実施する模擬試験もあります。
参考資料
- 中小企業診断士試験の公式サイト
- 中小企業診断士に関する書籍
その他
- 中小企業診断士2次試験のグループディスカッション試験について、他に知りたいことはありますか?
嘘の上塗りである。「「中小企業診断士試験実施要領」令和4年3月、p.12」も見当たらない。
このように、AIにも変なプライドがあるのか、取り繕おうとするのか、謙虚さが足りないのか今回の質問についてはうまくいかなかった。ほかの質問であれば、正しくチェックされる場合が多いと思うが、この方法も信頼性が高い訳ではないことは分かった。
2.ChatHubの使用
それ以外の方法として、私は「ChatHub」というツールを使って対策をしている。
ChatHubはWebのサービスの1つなのだが、1回のプロンプトで複数のAIへ同時に発行できるものである。

ChatHub:https://chathub.gg/ja
私は普段、ChatGPT、Claude、Gemini、Bing Copilotの4つへ同時に発行しているが、同じ質問に対する回答がそれぞれ異なっていないかをチェックするようにしている。4つの回答が同じであれば、ハルシネーションの可能性が低いという判断になる。
ちなみに先ほどの最初の質問をしてみた結果である。




ChatGPTについては先ほどの単体で質問した際と回答が異なっているが、このように4つ同時に回答が得られる。このうち、Geminiについては誤った回答をしているが、他は正しい回答をしているため、それらを見比べて相違がある部分はきちんと確認するようにすればよいということになる。
このChatHubは無料でも使用できるが、その場合2つまでしか同時発行できず、ChatGTPも3.5までしか利用できない。金額は、買い切りで$35である。
最後に
今回は、ハルシネーションに対する対策として、AI同士のチェックとChatHubの2つの方法を示そうと思っていたが、前者の精度が良くない場合があるということがわかり、ある意味想定外ではあった。
GPTの仕組であるかぎり、嘘の混入は0にはできないため、今後もこのあたりのチェック手法はより進化していくはずなので、引き続きウォッチしていき、また機会があれば紹介したい。
投稿者
onda.masashi@gmail.com