画像認識のバトル:GPT-4-o vs Google Gemini-Pro-1.5 – 生活の一部で画像認識は使えるか?

AI

現代の生活の中で、画像認識技術はますます重要な役割を果たしています。GPT-4-oとGoogle Gemini-Pro-1.5を毎日使用している筆者が、この2つの優れた画像認識モデルの精度を比較してみました。

関連 gemini-1.5-flash-latest API使ってみた。colab編

比較の前提条件

プロンプトは共通で、画像のアップロードと「文字起こし」を行うシンプルな方法で試行しました。では、その結果を見ていきましょう。

構造データ:料金表

まず、一般的な表データの画像で比較してみました。

結果
GPT-4-oもGoogle Gemini-Pro-1.5も共にこのタスクを問題なくクリアしました。精度も100点。

準構造データ:レシート

次に、某スーパーのレシート(ポケットの中でくしゃくしゃになったもの)を使用しました。

結果
Google Gemini-Pro-1.5は正確に認識し、難しい半角カタカナの「パピコ」も問題なく読み取りました。


OK 高品質 Everyday Low Price
オーケークラブ会員で現金払に限り、食料品は
単品毎に本体価格の3/103 (3%相当)を割引!
事業者番号 16010801001974
オーケー 王子堀船店
03-6381-9511
営業時間9:00~21:00
2024年05月18日(土)20:59 レジ 0705
N000000705 J
Fパピコチョココーヒー80ml×2 ¥96
小計 ¥96
F食料品 8% ¥96 税7
合計/ ¥103
1点
ID ¥103
お釣り ¥0
iD売上票
加盟店名 オーケー オウジホリフネデン
ご利用日 24/05/18 20:59:07
カード番号 0021
有効期限
取引内容 売上
伝票番号 00316
金額 ¥103
SPRWID 5509451042857
ユニークID A085509451042857
単品の価格は本体価格(税抜)です。
F食料品は軽減税率(8%)適用です。
無印他は標準税率(10%)です。
消費税はレシート毎に計算しています。
※印はセルフメディケーション税制対象です。
出店用地募集中!
東京 神奈川 千葉 埼玉
詳しくはこちら!
レシートNo9326 店N001126



一方、GPT-4-Oは「パピコ」を「カナダドライコーラ」と誤認し、全般的にカタカナや非構造データに対して弱い印象です。


高品質・Everyday Low Price

オーケークラブ会員で現金払い時、食料品は単品価格の103円(3%相当)を割引

事業者番号 T6010801001974
オーケー 王子堀船店
03-6381-9511
営業時間 9:00-21:00
2024年05月18日(土) 20:59 レジ 0705

レシートNo0000705 J
デ カナダドライ コーラ80ml×2 ¥96
小計 ¥96
8% 消費税 ¥7
合計 1点 ¥103
ID 支払上票 ¥103
加算名 店名: オーケー カウンター
利用日時 24/05/18 20:59:07
カード番号 0021
有効期限 XX/XX
取引内容 売上
伝票番号 00316
金額 ¥103
SPRWID 5509451042857
ユニークID A085509451042857

単品の価格は本体価格(税抜)です。
軽減税率対象品は税率8%適用です。
課税印は標準税率(10%)です。
対象品には★印が表示されます。
★印は「セルフメディケーション税制」対象です。

出店用地募集中!
東京都、埼玉県、千葉県
詳しくはこちら!


商品名以外は正確です。英語ではミスが少ないので単純にカタカナに弱いだけかもしれません。

非構造データ:雑誌のカタログ

次に、雑誌に登場する観光地のカタログを使用しました。※あえてぼやかした画像を使用しています。

結果
Google Gemini-Pro-1.5は若干のミスがあるものの、精度高く各商品と価格を認識し、成功率は約9割です。
GPT-4-oは約半分の正確さで、画像に載っていないものを記載するハルシネーションが見られ、チェックに時間がかかりました。

非構造データ:キャラクターカタログ

最後に、某◯面ライダーのカタログを使用し、技や敵が記載されているものを試しました。

結果
Google Gemini-Pro-1.5は「画像に人が含まれているため処理ができません」という前置きがあり、大雑把な内容しか認識できませんでした。
GPT-4-oは概ね正確でしたが、載っていない技「ライダーパンチ」などを記載してしまい、不完全な状態でした。画像に載っていない内容を避けるよう命令しても、完全には回避できませんでした。

まとめ

  • 構造データ(料金表など):GPT-4-oとGoogle Gemini-Pro-1.5はどちらも問題なし。
  • 準構造データ(レシートなど):Google Gemini-Pro-1.5のほうが精度が高い。
  • 非構造データ(人物描写なし):Google Gemini-Pro-1.5のほうが正確。
  • 非構造データ(人物あり):両方とも精度はまずまずで、手直しが必要。Google Gemini-Pro-1.5は人物描画があると対応できないケースが多い。

試験データや画像の撮影により精度にばらつきがあるため、参考程度にご覧ください。

画像認識技術を生活に活かすために

今回の比較を通じて、画像認識技術の現状とその可能性を探ることができました。今後もさらなる技術進化が期待されるこの分野で、どのように日常生活に役立てていけるかを考えていきたいと思います。

コメント

タイトルとURLをコピーしました