Gemini Embedding 2を初心者向けに噛み砕くスレ

Gemini Embedding 2の発表を入口に、AIがよく分からない人でもembeddingの基礎から追える流れにした教育系スレです。 公式ソースを適宜貼りながら、用語を噛み砕いて進みます。

Gemini Embedding 2の発表をきっかけに、embeddingとは何か、何に使うのか、なぜ新しいのかを初心者目線で会話形式で学べるスレ。

最近発表されたGemini Embedding 2について学ぶスレや
AIよう分からん民でも embedding って何やねん から入れるようにしたい
まず発表ニュース
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

公式の埋め込み解説
https://ai.google.dev/gemini-api/docs/embeddings

モデルページ
https://ai.google.dev/gemini-api/docs/models/gemini-embedding-2-preview

Vertex AI 側の仕様
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/embedding-2

旧モデルの整理
https://ai.google.dev/gemini-api/docs/deprecations
embeddingって単語の時点で帰りたい
ワイも
なんか英語で威圧してくる
めっちゃ雑に言うと
文章や画像の「意味」を数字の座標に変える技術や
急に座標って言われても怖い
例えば
「ラーメン食べたい」
「腹減ったから麺類ほしい」
は言い方ちゃうけど意味近いやん
embeddingはそれを近い場所に置こうとする
あー
単語一致じゃなくて意味の近さで探せる感じか
せや
キーワード検索やと「ラーメン」が書いてないと弱い
embedding検索やと意味が近ければ拾いやすい
辞書というより脳内の雰囲気で近づけるんやな
じゃあ生成AIそのものとは別物なんか
別役やな
生成AIは文章を作る係
embeddingは意味で探す係
同じAI畑でも仕事が違う
野球で言うと
生成AIが実況で embeddingがスカウトの地図みたいなもんか
割とええ例えや
誰が誰に近いタイプかを座標で持つ感じ
ここまででだいぶ助かる
embeddingって呪文じゃなかったんやな
今回のGemini Embedding 2で何が新しいかというと
Google公式いわくGeminiアーキテクチャ上の「最初の完全マルチモーダル埋め込みモデル」や
テキストだけやなく画像 音声 動画 PDF文書まで同じ意味空間に置ける
同じ意味空間ってなんや
また強そうな単語出てきたぞ
画像も文章も音声も
全部「意味の座標」に変換して
同じ地図の上で近い遠いを見られるってことや
つまり
「夕焼けの海の写真」を文章で探せるんか
それがまさに強みや
文章クエリで画像探す
画像から関連文書探す
動画から音声説明に近い場面探す
みたいなのがやりやすくなる
便利そうやけどワイの生活にはまだ遠い気もする
身近な例で言うと
社内資料検索
FAQ検索
ECの商品おすすめ
写真整理
カスタマーサポートの関連文書引き当て
この辺や
あー
検索窓の賢さ上げる基盤なんやな
せや
表から見えるのは「探しやすい」
裏でやってるのが embedding や
RAGって単語もよう見るけど
あれと何が関係あるんや
RAGは
まず手元の資料を探して
その結果を生成AIに読ませて答えさせる仕組みや
その「まず探す」の主力が embedding
つまり生成AIだけだと記憶あいまいやから
資料係を横に置く感じか
ここまで分かった
でも数字のベクトルになる意味あるんか
文字のままじゃだめなん
文字のままやと
表記ゆれ 言い換え 他言語に弱い
数字の座標にしとくと
距離計算で意味の近さを高速に扱いやすい
距離計算って高校数学の気配がするので逃げます
安心せえ
利用者は「近いものを探す」で足りる
中で cosine similarity とか使うことが多いけど
概念としては「向きが似てると近い」くらいでええ
広告
急に三すくみみたいな単語出たけど
要は比べ方があるって話やな
せや
ワイらは「似てる順に並べる方法がある」で十分や
Gemini Embedding 2の数字の大きさってどれくらいなん
Vertex AIの仕様だと
デフォルトで3072次元のベクトルや
しかも必要なら小さく出すこともできる
3072次元って聞いた瞬間に人類向きではなくなった
人類が直接眺めるもんではないからセーフ
大事なんは
情報量をそこそこ持ちつつ比較に使えることや
マトリョーシカって急にかわいいな
中に小さい意味が入っとるんか
イメージとしては近い
大きいベクトルの先頭側に
重要な情報をうまく詰めて
小さく切っても実用になりやすくする発想や
保存コストとか速度にも効きそうやな
そこや
発表でも性能と保存コストのバランスを取りやすい言うとる
でかいほど雑に強いが
小さくするとストレージや検索コストが軽くなる
じゃあ全部3072にしとけば勝ちではないんやな
勝ち筋は用途次第やな
精度最優先なら大きめ
件数めっちゃ多いなら軽量化も考える
ところで前のGemini embeddingって何やったん
ここ大事
Gemini API公式ドキュメントでは
最新は gemini-embedding-2-preview
一方で text-only用途なら gemini-embedding-001 も引き続きある
つまり全部が即座に置き換わるというより
「マルチモーダルの新しい本命が来た」理解でええ
じゃあ古い text-embedding-004 はどうなったんや
公式の deprecations ページだと
text-embedding-004 は 2026-01-14 で停止済み扱いや
推奨置き換え先は gemini-embedding-001 になっとる
https://ai.google.dev/gemini-api/docs/deprecations
わりと最近整理されたんやな
せや
その流れの上で今回 Embedding 2 が来たから
「Googleの埋め込み系がマルチモーダルに一段進んだ」と見ると分かりやすい
対応言語どうなん
英語専用みたいなの嫌やで
公式ブログと埋め込みDocsでは
100以上の言語で意味を捉える方向で説明されとる
多言語検索に向いとるのはかなりデカい
日本語資料を英語クエリで探すとかも夢ではないんか
理屈上はそこが狙いや
もちろんデータ次第で精度差はあるけど
単純な単語一致より希望がある
動画とか音声まで入ると
会議録の検索も賢くなりそうやな
せやな
例えば
「予算削減の話してた場面どこ?」
を動画や音声から探す系がやりやすくなる
PDF読めるの地味にありがたい
会社の知識ってだいたいPDFに封印されてるし
封印というか呪物定期
あと初心者向けに誤解を潰すと
embeddingは「答えを生成する魔法」ではない
「関連するものを見つける地図」や
ここ混ざると理解が崩れる
生成AIが作文担当
embeddingが資料係
これで覚えるわ
かなり正しい
しかも資料係が有能だと
作文担当の答えもだいぶマシになる
だからRAGで重要なんや
実装する側は何を気をつけるんや
初心者向けに3つだけ
1 何を探したいか決める
2 データをちゃんと分割して入れる
3 精度とコストで次元数を選ぶ
あと用途指定の設定を使うと精度改善しやすい
埋め込みDocsにも task type の話がある
https://ai.google.dev/gemini-api/docs/embeddings
「何でも入れたら賢くなる」は違うんやな
せや
ゴミの山を高級ベクトルにしても
高級なゴミの地図ができるだけや
言い方だけ妙に刺さるのやめろ
結局チャンク分割大事になるんやな
AI界ずっと刻んでる気がする
刻み方で検索精度かなり変わるからな
段落ごと
見出しつき
会話ターンごと
この辺は用途で変える
ここまでで
Embedding 2は「何でも分かる超知能」ではなく
「いろんな形式を同じ意味地図に置ける検索基盤」って理解でええか
その理解でかなりええ
しかもGoogle公式発表上は
Public PreviewでGemini APIとVertex AIから使える
だから今後この系統の土台として触る人は増えそうや
初心者ワイ
embeddingをようやく「検索のための意味座標化」として脳に格納
今日のまとめ
embedding = 意味を座標にする
RAG = その座標で資料を探してから答える
Gemini Embedding 2 = テキストだけやなく画像 音声 動画 PDFまで同じ地図に乗せる新しいGoogleの埋め込みモデル
ワイの理解
「検索の裏で働く地味やけど重要なやつ」が主役回をもらった
だいたいそれ
派手なのは生成やけど
現場で効くのは案外こっちや
つまりAI界の守備職人やな
打率よりUZRで語られるタイプ

前後のスレ

広告

関連記事