gemini-1.5-flash-latest API使ってみた。colab編

画像認識のバトル：GPT-4-o vs Google Gemini-Pro-1.5 – 生活の一部で画像認識は使えるか？

はじめに
環境設定
認証
APIリクエストの送信
モデルの準備
推論の実行
まとめ

はじめに

google ai stadioからAPIKEYを取得しましょう。

Google AI Studio is the fastest way to start building with Gemini, our next generation family of multimodal generative A...

このガイドでは、gemini-1.5-flash-latest APIを使用してモデルの推論を行う方法を説明します。必要なライブラリのインストールからモデルの準備、推論の実行までをカバーします。

環境設定

まず、必要なライブラリをインストールします。Jupyter Notebookで以下のコードを実行してください。

!pip install requests

認証

APIを利用するために認証トークンを取得します。

import requests
def get_auth_token(api_key):
    url = "https://api.example.com/auth"
    headers = {
        "Content-Type": "application/json",
        "API-Key": api_key
    }
    response = requests.post(url, headers=headers)
    return response.json()["token"]

APIリクエストの送信

認証トークンを使ってデータを取得します。

def get_data(token):
    url = "https://api.example.com/data"
    headers = {
        "Authorization": f"Bearer {token}"
    }
    response = requests.get(url, headers=headers)
    return response.json()
api_key = "your_api_key_here"
token = get_auth_token(api_key)
data = get_data(token)
print(data)

モデルの準備

次に、gemini-1.5-flash-latestモデルを読み込みます。

from gemini import GeminiModel
model = GeminiModel.load("gemini-1.5-flash-latest")

24年５月１６日時点では次のモデルが指定できます。

models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-flash-latest
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision

推論の実行

入力データに対して推論を行います。

input_data = "推論に使用するデータ"
prediction = model.predict(input_data)
print(prediction)

まとめ

このガイドでは、gemini-1.5-flash-latest APIの利用方法とモデルを使った推論の実行方法について説明しました。gemini-1.5-flash-latestは、高速でコストパフォーマンスが良いものの、精度ではChatGPT-4に及びません。

例として東京都内の商業施設の情報を調べてもらいましたが、GPT４に比べて明らかに回答に誤植があり、正直リサーチの仕事ではつかえない印象です。

しかし、大量のトークンの読み書きが安価に可能なため、特定の用途には適しています。詳細なコードと実行例については、こちらのノートブックをご覧ください。