
画像認識のバトル:GPT-4-o vs Google Gemini-Pro-1.5 – 生活の一部で画像認識は使えるか?
はじめに
google ai stadioからAPIKEYを取得しましょう。
このガイドでは、gemini-1.5-flash-latest
APIを使用してモデルの推論を行う方法を説明します。必要なライブラリのインストールからモデルの準備、推論の実行までをカバーします。
環境設定
まず、必要なライブラリをインストールします。Jupyter Notebookで以下のコードを実行してください。
!pip install requests
認証
APIを利用するために認証トークンを取得します。
import requests
def get_auth_token(api_key):
url = "https://api.example.com/auth"
headers = {
"Content-Type": "application/json",
"API-Key": api_key
}
response = requests.post(url, headers=headers)
return response.json()["token"]
APIリクエストの送信
認証トークンを使ってデータを取得します。
def get_data(token):
url = "https://api.example.com/data"
headers = {
"Authorization": f"Bearer {token}"
}
response = requests.get(url, headers=headers)
return response.json()
api_key = "your_api_key_here"
token = get_auth_token(api_key)
data = get_data(token)
print(data)
モデルの準備
次に、gemini-1.5-flash-latest
モデルを読み込みます。
from gemini import GeminiModel
model = GeminiModel.load("gemini-1.5-flash-latest")
24年5月16日時点では次のモデルが指定できます。
models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-flash-latest
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision
推論の実行
入力データに対して推論を行います。
input_data = "推論に使用するデータ"
prediction = model.predict(input_data)
print(prediction)
まとめ
このガイドでは、gemini-1.5-flash-latest
APIの利用方法とモデルを使った推論の実行方法について説明しました。gemini-1.5-flash-latest
は、高速でコストパフォーマンスが良いものの、精度ではChatGPT-4に及びません。
例として東京都内の商業施設の情報を調べてもらいましたが、GPT4に比べて明らかに回答に誤植があり、正直リサーチの仕事ではつかえない印象です。
しかし、大量のトークンの読み書きが安価に可能なため、特定の用途には適しています。詳細なコードと実行例については、こちらのノートブックをご覧ください。
コメント