Gemini Embedding 2を初心者向けに噛み砕くスレ
Gemini Embedding 2の発表を入口に、AIがよく分からない人でもembeddingの基礎から追える流れにした教育系スレです。 公式ソースを適宜貼りながら、用語を噛み砕いて進みます。
Gemini Embedding 2の発表をきっかけに、embeddingとは何か、何に使うのか、なぜ新しいのかを初心者目線で会話形式で学べるスレ。
最近発表されたGemini Embedding 2について学ぶスレや
AIよう分からん民でも embedding って何やねん から入れるようにしたい
まず発表ニュース
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
公式の埋め込み解説
https://ai.google.dev/gemini-api/docs/embeddings
モデルページ
https://ai.google.dev/gemini-api/docs/models/gemini-embedding-2-preview
Vertex AI 側の仕様
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/embedding-2
旧モデルの整理
https://ai.google.dev/gemini-api/docs/deprecations
AIよう分からん民でも embedding って何やねん から入れるようにしたい
まず発表ニュース
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
公式の埋め込み解説
https://ai.google.dev/gemini-api/docs/embeddings
モデルページ
https://ai.google.dev/gemini-api/docs/models/gemini-embedding-2-preview
Vertex AI 側の仕様
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/embedding-2
旧モデルの整理
https://ai.google.dev/gemini-api/docs/deprecations
embeddingって単語の時点で帰りたい
ワイも
なんか英語で威圧してくる
なんか英語で威圧してくる
めっちゃ雑に言うと
文章や画像の「意味」を数字の座標に変える技術や
文章や画像の「意味」を数字の座標に変える技術や
急に座標って言われても怖い
例えば
「ラーメン食べたい」
「腹減ったから麺類ほしい」
は言い方ちゃうけど意味近いやん
embeddingはそれを近い場所に置こうとする
「ラーメン食べたい」
「腹減ったから麺類ほしい」
は言い方ちゃうけど意味近いやん
embeddingはそれを近い場所に置こうとする
あー
単語一致じゃなくて意味の近さで探せる感じか
単語一致じゃなくて意味の近さで探せる感じか
せや
キーワード検索やと「ラーメン」が書いてないと弱い
embedding検索やと意味が近ければ拾いやすい
キーワード検索やと「ラーメン」が書いてないと弱い
embedding検索やと意味が近ければ拾いやすい
辞書というより脳内の雰囲気で近づけるんやな
じゃあ生成AIそのものとは別物なんか
別役やな
生成AIは文章を作る係
embeddingは意味で探す係
同じAI畑でも仕事が違う
生成AIは文章を作る係
embeddingは意味で探す係
同じAI畑でも仕事が違う
野球で言うと
生成AIが実況で embeddingがスカウトの地図みたいなもんか
生成AIが実況で embeddingがスカウトの地図みたいなもんか
割とええ例えや
誰が誰に近いタイプかを座標で持つ感じ
誰が誰に近いタイプかを座標で持つ感じ
ここまででだいぶ助かる
embeddingって呪文じゃなかったんやな
embeddingって呪文じゃなかったんやな
今回のGemini Embedding 2で何が新しいかというと
Google公式いわくGeminiアーキテクチャ上の「最初の完全マルチモーダル埋め込みモデル」や
テキストだけやなく画像 音声 動画 PDF文書まで同じ意味空間に置ける
Google公式いわくGeminiアーキテクチャ上の「最初の完全マルチモーダル埋め込みモデル」や
テキストだけやなく画像 音声 動画 PDF文書まで同じ意味空間に置ける
同じ意味空間ってなんや
また強そうな単語出てきたぞ
また強そうな単語出てきたぞ
画像も文章も音声も
全部「意味の座標」に変換して
同じ地図の上で近い遠いを見られるってことや
全部「意味の座標」に変換して
同じ地図の上で近い遠いを見られるってことや
公式モデル説明にも
text image video audio PDF を single unified embedding space に入れるってある
https://ai.google.dev/gemini-api/docs/models/gemini-embedding-2-preview
text image video audio PDF を single unified embedding space に入れるってある
https://ai.google.dev/gemini-api/docs/models/gemini-embedding-2-preview
つまり
「夕焼けの海の写真」を文章で探せるんか
「夕焼けの海の写真」を文章で探せるんか
それがまさに強みや
文章クエリで画像探す
画像から関連文書探す
動画から音声説明に近い場面探す
みたいなのがやりやすくなる
文章クエリで画像探す
画像から関連文書探す
動画から音声説明に近い場面探す
みたいなのがやりやすくなる
便利そうやけどワイの生活にはまだ遠い気もする
身近な例で言うと
社内資料検索
FAQ検索
ECの商品おすすめ
写真整理
カスタマーサポートの関連文書引き当て
この辺や
社内資料検索
FAQ検索
ECの商品おすすめ
写真整理
カスタマーサポートの関連文書引き当て
この辺や
あー
検索窓の賢さ上げる基盤なんやな
検索窓の賢さ上げる基盤なんやな
せや
表から見えるのは「探しやすい」
裏でやってるのが embedding や
表から見えるのは「探しやすい」
裏でやってるのが embedding や
RAGって単語もよう見るけど
あれと何が関係あるんや
あれと何が関係あるんや
RAGは
まず手元の資料を探して
その結果を生成AIに読ませて答えさせる仕組みや
その「まず探す」の主力が embedding
まず手元の資料を探して
その結果を生成AIに読ませて答えさせる仕組みや
その「まず探す」の主力が embedding
つまり生成AIだけだと記憶あいまいやから
資料係を横に置く感じか
資料係を横に置く感じか
ここまで分かった
でも数字のベクトルになる意味あるんか
文字のままじゃだめなん
でも数字のベクトルになる意味あるんか
文字のままじゃだめなん
文字のままやと
表記ゆれ 言い換え 他言語に弱い
数字の座標にしとくと
距離計算で意味の近さを高速に扱いやすい
表記ゆれ 言い換え 他言語に弱い
数字の座標にしとくと
距離計算で意味の近さを高速に扱いやすい
距離計算って高校数学の気配がするので逃げます
安心せえ
利用者は「近いものを探す」で足りる
中で cosine similarity とか使うことが多いけど
概念としては「向きが似てると近い」くらいでええ
利用者は「近いものを探す」で足りる
中で cosine similarity とか使うことが多いけど
概念としては「向きが似てると近い」くらいでええ
Google Cloudの解説でも
ベクトルは正規化されてて cosine similarity dot product Euclidean distance で同じ順位付けができるとある
https://cloud.google.com/vertex-ai/generative-ai/docs/embeddings/get-text-embeddings
ベクトルは正規化されてて cosine similarity dot product Euclidean distance で同じ順位付けができるとある
https://cloud.google.com/vertex-ai/generative-ai/docs/embeddings/get-text-embeddings
広告
急に三すくみみたいな単語出たけど
要は比べ方があるって話やな
要は比べ方があるって話やな
せや
ワイらは「似てる順に並べる方法がある」で十分や
ワイらは「似てる順に並べる方法がある」で十分や
Gemini Embedding 2の数字の大きさってどれくらいなん
Vertex AIの仕様だと
デフォルトで3072次元のベクトルや
しかも必要なら小さく出すこともできる
デフォルトで3072次元のベクトルや
しかも必要なら小さく出すこともできる
3072次元って聞いた瞬間に人類向きではなくなった
人類が直接眺めるもんではないからセーフ
大事なんは
情報量をそこそこ持ちつつ比較に使えることや
大事なんは
情報量をそこそこ持ちつつ比較に使えることや
発表ブログだと
Matryoshka Representation Learning を使って
3072から縮めても使いやすいようにしてて
3072 1536 768あたりを推奨しとる
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
Matryoshka Representation Learning を使って
3072から縮めても使いやすいようにしてて
3072 1536 768あたりを推奨しとる
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
マトリョーシカって急にかわいいな
中に小さい意味が入っとるんか
イメージとしては近い
大きいベクトルの先頭側に
重要な情報をうまく詰めて
小さく切っても実用になりやすくする発想や
大きいベクトルの先頭側に
重要な情報をうまく詰めて
小さく切っても実用になりやすくする発想や
保存コストとか速度にも効きそうやな
そこや
発表でも性能と保存コストのバランスを取りやすい言うとる
でかいほど雑に強いが
小さくするとストレージや検索コストが軽くなる
発表でも性能と保存コストのバランスを取りやすい言うとる
でかいほど雑に強いが
小さくするとストレージや検索コストが軽くなる
じゃあ全部3072にしとけば勝ちではないんやな
勝ち筋は用途次第やな
精度最優先なら大きめ
件数めっちゃ多いなら軽量化も考える
精度最優先なら大きめ
件数めっちゃ多いなら軽量化も考える
ところで前のGemini embeddingって何やったん
ここ大事
Gemini API公式ドキュメントでは
最新は gemini-embedding-2-preview
一方で text-only用途なら gemini-embedding-001 も引き続きある
つまり全部が即座に置き換わるというより
「マルチモーダルの新しい本命が来た」理解でええ
Gemini API公式ドキュメントでは
最新は gemini-embedding-2-preview
一方で text-only用途なら gemini-embedding-001 も引き続きある
つまり全部が即座に置き換わるというより
「マルチモーダルの新しい本命が来た」理解でええ
じゃあ古い text-embedding-004 はどうなったんや
公式の deprecations ページだと
text-embedding-004 は 2026-01-14 で停止済み扱いや
推奨置き換え先は gemini-embedding-001 になっとる
https://ai.google.dev/gemini-api/docs/deprecations
text-embedding-004 は 2026-01-14 で停止済み扱いや
推奨置き換え先は gemini-embedding-001 になっとる
https://ai.google.dev/gemini-api/docs/deprecations
わりと最近整理されたんやな
せや
その流れの上で今回 Embedding 2 が来たから
「Googleの埋め込み系がマルチモーダルに一段進んだ」と見ると分かりやすい
その流れの上で今回 Embedding 2 が来たから
「Googleの埋め込み系がマルチモーダルに一段進んだ」と見ると分かりやすい
対応言語どうなん
英語専用みたいなの嫌やで
英語専用みたいなの嫌やで
公式ブログと埋め込みDocsでは
100以上の言語で意味を捉える方向で説明されとる
多言語検索に向いとるのはかなりデカい
100以上の言語で意味を捉える方向で説明されとる
多言語検索に向いとるのはかなりデカい
日本語資料を英語クエリで探すとかも夢ではないんか
理屈上はそこが狙いや
もちろんデータ次第で精度差はあるけど
単純な単語一致より希望がある
もちろんデータ次第で精度差はあるけど
単純な単語一致より希望がある
動画とか音声まで入ると
会議録の検索も賢くなりそうやな
会議録の検索も賢くなりそうやな
せやな
例えば
「予算削減の話してた場面どこ?」
を動画や音声から探す系がやりやすくなる
例えば
「予算削減の話してた場面どこ?」
を動画や音声から探す系がやりやすくなる
Vertex AIの仕様ページには
画像 テキスト 文書 音声 動画を受けて3072次元にするって明記されとる
しかもPDFはOCRも読む説明がある
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/embedding-2
画像 テキスト 文書 音声 動画を受けて3072次元にするって明記されとる
しかもPDFはOCRも読む説明がある
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/embedding-2
PDF読めるの地味にありがたい
会社の知識ってだいたいPDFに封印されてるし
会社の知識ってだいたいPDFに封印されてるし
封印というか呪物定期
あと初心者向けに誤解を潰すと
embeddingは「答えを生成する魔法」ではない
「関連するものを見つける地図」や
ここ混ざると理解が崩れる
embeddingは「答えを生成する魔法」ではない
「関連するものを見つける地図」や
ここ混ざると理解が崩れる
生成AIが作文担当
embeddingが資料係
これで覚えるわ
embeddingが資料係
これで覚えるわ
かなり正しい
しかも資料係が有能だと
作文担当の答えもだいぶマシになる
だからRAGで重要なんや
しかも資料係が有能だと
作文担当の答えもだいぶマシになる
だからRAGで重要なんや
実装する側は何を気をつけるんや
初心者向けに3つだけ
1 何を探したいか決める
2 データをちゃんと分割して入れる
3 精度とコストで次元数を選ぶ
あと用途指定の設定を使うと精度改善しやすい
埋め込みDocsにも task type の話がある
https://ai.google.dev/gemini-api/docs/embeddings
1 何を探したいか決める
2 データをちゃんと分割して入れる
3 精度とコストで次元数を選ぶ
あと用途指定の設定を使うと精度改善しやすい
埋め込みDocsにも task type の話がある
https://ai.google.dev/gemini-api/docs/embeddings
「何でも入れたら賢くなる」は違うんやな
せや
ゴミの山を高級ベクトルにしても
高級なゴミの地図ができるだけや
ゴミの山を高級ベクトルにしても
高級なゴミの地図ができるだけや
言い方だけ妙に刺さるのやめろ
ついでに仕様面の小ネタ
Vertex AIページでは最大入力 8192トークンって出とる
長文でもそこそこ扱えるが
無限ではないから分割戦略は大事や
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/embedding-2
Vertex AIページでは最大入力 8192トークンって出とる
長文でもそこそこ扱えるが
無限ではないから分割戦略は大事や
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/embedding-2
結局チャンク分割大事になるんやな
AI界ずっと刻んでる気がする
AI界ずっと刻んでる気がする
刻み方で検索精度かなり変わるからな
段落ごと
見出しつき
会話ターンごと
この辺は用途で変える
段落ごと
見出しつき
会話ターンごと
この辺は用途で変える
ここまでで
Embedding 2は「何でも分かる超知能」ではなく
「いろんな形式を同じ意味地図に置ける検索基盤」って理解でええか
Embedding 2は「何でも分かる超知能」ではなく
「いろんな形式を同じ意味地図に置ける検索基盤」って理解でええか
その理解でかなりええ
しかもGoogle公式発表上は
Public PreviewでGemini APIとVertex AIから使える
だから今後この系統の土台として触る人は増えそうや
しかもGoogle公式発表上は
Public PreviewでGemini APIとVertex AIから使える
だから今後この系統の土台として触る人は増えそうや
初心者ワイ
embeddingをようやく「検索のための意味座標化」として脳に格納
embeddingをようやく「検索のための意味座標化」として脳に格納
今日のまとめ
embedding = 意味を座標にする
RAG = その座標で資料を探してから答える
Gemini Embedding 2 = テキストだけやなく画像 音声 動画 PDFまで同じ地図に乗せる新しいGoogleの埋め込みモデル
embedding = 意味を座標にする
RAG = その座標で資料を探してから答える
Gemini Embedding 2 = テキストだけやなく画像 音声 動画 PDFまで同じ地図に乗せる新しいGoogleの埋め込みモデル
ワイの理解
「検索の裏で働く地味やけど重要なやつ」が主役回をもらった
「検索の裏で働く地味やけど重要なやつ」が主役回をもらった
だいたいそれ
派手なのは生成やけど
現場で効くのは案外こっちや
派手なのは生成やけど
現場で効くのは案外こっちや
つまりAI界の守備職人やな
打率よりUZRで語られるタイプ
打率よりUZRで語られるタイプ
前後のスレ
広告
関連記事
ニュース・時事
ボンボンドロップシール、文具屋が試される
人気シール「ボンボンドロップシール」が品薄化。大人も子どもも参戦して、売り場の空気だけ重くなっている。
ニュース・時事
新幹線の座席、ついに窓を向く
新幹線の座席を窓向きにして座る客が話題に。マナーと安全の境界でスレが荒れる。
ニュース・時事
ピエールマルコリーニ、結局“自分用”が最適解
春ギフト販売開始の話題なのに、なぜか全員が自分を大切にし始めるスレ。
ニュース・時事
AIで匿名垢の身バレ最大67%らしいけどもう終わりやろ
匿名投稿でもAIに掘られる時代が来たらしい。 書き癖と投稿量で詰むの、だいぶ嫌な話や。