AIチャットサービス「ChatGPT」のモデルの1つ、GPT-4oは、人間から受け取ったテキストをまず「トークン」に処理した後、AIが扱いやすい数値ベクトルに変換して計算を行います。画像でも同様の処理を行いますが、その際にどのような処理をしているのか、プログラマーのオラン・ルーニー氏が推測しました。 A Picture is Worth 170 Tokens: How Does GPT-4o Encode Images? - OranLooney.com https://www.oranlooney.com/post/gpt-cnn/ GPT-4oが高解像度の画像を処理する際は、画像を512x512ピクセルのタイルに切り分けて処理し、1タイル当たり170トークンを消費します。この「170トークン」という数字に着目したルーニー氏は、「OpenAIが使う数字にしては中途半端すぎる」と指摘し、なぜ170という数字が出てくるのかを調査しました。 仮説として、各タイルが170個の特徴ベクトルに変換され、それが連続する形で並べられているというものが考えられるそうです。GPT-4oのようなディープラーニングモデルが画像を扱う際は、画像のピクセル情報を直接処理するのではなく、高次元のベクトル空間にマッピングしてから処理する方がより効率的なためです。

2024年06月23日 09時00分00秒 in ソフトウェア, Posted by log1p_kr

