多言語AIの「意味の地図」を作り直すオープンEmbeddingモデル
生成AIの話になると、どうしても目立つのはチャットの返答や画像生成のような、わかりやすいアウトプットだ。
でも、AIが何かを「理解しているように見える」前には、もっと地味な処理がある。
文章を、意味の近さで扱える数値に変える。 検索できるようにする。 分類できるようにする。 似た文書を探せるようにする。 質問に対して、必要な知識を引っ張ってこられるようにする。
この土台にあるのが Embedding、テキスト埋め込み だ。
Embeddingは、文章をベクトルに変換する技術である。 もう少し直感的に言えば、言葉を「意味の地図」に置き直す技術だ。
たとえば、
「心臓病の治療法」 「cardiovascular treatment」 「心不全に関する医療文献」
これらは、言語も表現も違う。 でも、意味としては近い。
Embeddingモデルは、こうした意味の近さを数値空間上で扱えるようにする。
検索、RAG、レコメンド、分類、チャットボット、教材推薦、医療文献検索。 いま実用化されているAIアプリケーションの多くは、この「意味の地図」の上で動いている。
今回紹介する ML-Embed は、その地図を多言語時代に向けて作り直そうとするモデルシリーズだ。
英語中心のAIは、世界をどこまで見ているのか
ML-Embedは、Ziyin Zhang氏らによるテキスト埋め込みモデルシリーズで、arXivでは2026年5月14日に公開されている。ICML 2026の論文として示されており、論文タイトルは ML-Embed: Inclusive and Efficient Embeddings for a Multilingual World だ。
対象はかなり広い。
282の自然言語。 40を超えるプログラミング言語。 140Mから8Bパラメータまでの6種類のモデル。 そして、コードとモデル・データの公開。
単に「新しいEmbeddingモデルが出た」という話ではない。
この研究が面白いのは、AIのかなり根本的な偏りに触れているところだ。
いまのAIは、本当に多言語なのか。 それとも、英語を中心にした世界を、少しだけ多言語風に拡張しているだけなのか。
この問いは、生成AIの見た目がどれだけ自然になっても消えない。
むしろAIが社会インフラに近づくほど、避けて通れなくなる。
現在のEmbeddingには、3つの壁がある
ML-Embedが向き合っている問題は、大きく3つある。
1つ目は、言語格差。 2つ目は、計算コスト。 3つ目は、不透明性。
どれも地味だが、実用上はかなり大きい。
言語格差:評価されない言語は、改善されにくい
AI研究は、いまだに英語中心だ。
多言語モデルは増えている。 けれど、MTEB のようなEmbedding評価ベンチマークにおけるモデル提出数を見ると、英語、中国語、フランス語、ドイツ語のような一部の言語に大きく偏っている。
ML-Embed論文が参照したMTEBベンチマークへのモデル提出数では、英語は154、多言語は146、フランス語は111、ドイツ語は90。
一方で、ポーランド語は1。 日本語は11。 ベトナム語は17。 ペルシャ語は22。
この差は、単なる研究コミュニティの盛り上がりの差ではない。
評価されない言語は、改善されにくい。 改善されない言語は、実用化されにくい。 実用化されない言語は、AI経済圏の外側に置かれていく。
つまりこれは、言語の問題であると同時に、知識アクセスの問題でもある。
ML-Embedでは、特に低リソース言語で大きな性能向上が報告されている。 ポーランド語ベンチマークでは、前記録比で +22.89点。
この上昇幅は、少し異常に見える。
ただし、見方を変えるとこうも言える。 そこには、まだ掘られていない鉱脈があった。
AIが賢くなったというより、AI研究がようやく見落としていた場所を見始めた、ということかもしれない。
計算コスト:巨大モデルだけでは、現場に届かない
近年のEmbeddingモデルは、大規模言語モデルを流用する形で高性能化してきた。
これは自然な流れだ。 大きなモデルは強い。 たくさんのデータで訓練されたモデルは、幅広い文脈を扱える。
ただし、問題もある。
訓練コストが上がる。 推論コストが上がる。 メモリ消費が増える。 結果として、巨大なGPU環境を持つ企業や研究機関だけが前に進みやすくなる。
一方で、地域の研究者、小規模なスタートアップ、教育機関、発展途上国の開発者は参入しにくい。
これはかなり皮肉な状況だ。
ローカルな言語や地域文脈に本当に詳しいのは、多くの場合、その土地の人たちだ。 しかし、AI開発のコストが高くなりすぎると、そうした人たちほど開発の中心から遠ざかってしまう。
AIが社会の隅々に入っていくなら、モデルは高性能であるだけでは足りない。 軽く、安く、手元で動くことも必要になる。
不透明性:強いモデルほど、中身が見えにくい
もう1つの壁は、不透明性だ。
トップクラスのEmbeddingモデルの多くは、API経由でしか使えない。 あるいは、重みは公開されていても、訓練データは非公開というケースがある。
いわゆる「オープンウェイト」ではあっても、完全に再現可能な研究とは限らない。
どのデータで訓練されたのか。 どの言語に強いのか。 どの言語で弱いのか。 どんなバイアスを含んでいるのか。
これらが検証できないと、AIを社会基盤として使うには不安が残る。
ML-Embedが、モデル、データ、コードを公開していることには意味がある。
性能競争だけでなく、再現性と検証可能性を土台に置こうとしているからだ。
ML-Embedの核:3次元マトリョーシカ学習
ML-Embedの技術的な中心にあるのが、3D-ML。 3次元マトリョーシカ学習だ。
マトリョーシカ人形は、大きな人形の中に小さな人形が入っている。 その入れ子構造を、Embeddingモデルに応用する。
大きく使うこともできる。 小さく使うこともできる。 深く使うこともできる。 浅く使うこともできる。 長いベクトルで使うことも、短いベクトルで使うこともできる。
この柔軟性が、ML-Embedの特徴になっている。
3D-MLは、3つの方向でモデルを圧縮・調整する。
| 次元 | 技術 | 役割 |
|---|---|---|
| パラメータ | MEL: Matryoshka Embedding Learning | モデルのメモリ削減 |
| 層の深さ | MLL: Matryoshka Layer Learning | 浅い層だけで高速推論 |
| 出力次元 | MRL: Matryoshka Representation Learning | ベクトル保存容量の削減 |
この中で、特に新しい提案が MEL だ。
既存の Matryoshka Representation Learning は、主に出力ベクトルの次元を柔軟に使う発想だった。 ML-Embedはその考え方を、出力次元だけでなく、層の深さ、そしてEmbedding層のパラメータ効率にまで広げている。
つまり、単に「保存するベクトルを短くする」だけではない。 モデルそのものを、いろいろな予算で使えるように設計している。
MEL:Embedding層を「圧縮される前提」で育てる
Embeddingモデルでは、語彙をベクトルに変換するEmbedding層が大きなメモリを使う。
特に小規模モデルでは、このEmbedding層が全パラメータの4分の1を占めることもある。
ML-EmbedのMELは、このEmbedding層を低ランク行列の積として表現する。
通常のEmbedding行列を E とする。
これは、語彙数 v と次元数 d を持つ巨大な行列だ。
MELでは、この行列を2つの小さな行列に分解する。
E = EA × EB
EA は v × r。
EB は r × d。
大きな行列を、そのまま持つのではなく、2つの軽い行列の組み合わせで表す。
ここまでは、低ランク近似として理解できる。
面白いのは、その先だ。
MELでは、訓練中にサブランクを動的にサンプリングする。 つまり、モデルは最初から「小さく切り出されても使える」ように学習する。
後から無理やり削るのではない。 削られることを前提に育てる。
この違いは大きい。
圧縮は、たいてい性能劣化を伴う。 軽くなるが、弱くなる。 速くなるが、雑になる。
MELは、そのトレードオフをかなりうまく緩めている。
論文中のアブレーションでは、従来モデルが小さなランク削減で大きく崩れる一方、MELで訓練したモデルは強い圧縮後も性能を保つことが示されている。
従来モデルでは、ランクを1024から960に落としただけで性能が69.68から53.25まで崩れる例が示されている。 一方で、MELで訓練したモデルは、ランク64まで圧縮しても64.30を維持する。
これは、かなり実用的な差だ。
論文上のスコア差というより、「現場で小さくしても壊れにくい」という意味を持つ。
互換モードと効率モード
MELには、推論時に2つの使い方がある。
1つは 互換モード。
この場合、低ランク行列を掛け合わせて、通常のEmbedding層として扱う。 既存の推論インフラを大きく変えずに使える。
もう1つは 効率モード。
こちらは、低ランク行列をそのまま使う。 メモリを大きく削減できるため、ローカル環境やエッジデバイスでの利用に向いている。
この2モード設計は、かなり現実的だ。
研究室の中だけで完結するモデルなら、互換性はそこまで重要ではない。 でも、現場に入れるモデルは違う。
既存のシステムに載せやすいか。 メモリの少ない環境で動くか。 コストを抑えられるか。 運用側が扱えるか。
ML-Embedは、そうした実装上の面倒をある程度見ている。
派手ではない。 でも、こういう地味な設計が普及を左右する。
5,000万サンプル、282言語、40超プログラミング言語
ML-Embedは、121の公開ソースから集めた 5,000万サンプルで訓練されている。
対象は、282の自然言語と40を超えるプログラミング言語。
既存の多言語データセットでは、英語や中国語に偏ることが多かった。 ML-Embedでは、スペイン語、アラビア語、低リソース言語など、より広い分布を意識している。
訓練は2段階で行われる。
第1段階では、2,700万件の大規模検索データを使い、意味検索の土台を作る。 第2段階では、830万件の混合データを使い、タスクごとのニュアンスを学習する。
ざっくり言えば、まず「意味の近さ」を広く学び、その後で「実際のタスクで使える形」に寄せていく。
Embeddingは、文章を数値に変換するだけの部品に見える。 だが実際には、検索、分類、推薦、RAGの品質をかなり左右する。
意味の地図が雑なら、上に載るアプリケーションも迷子になる。
成果:低リソース言語で大きく伸びた
ML-Embed論文 によれば、ML-Embed-8BはMTEBの17ベンチマーク中9つで新記録を達成した。
特に目立つのは、低リソース言語での改善だ。
ポーランド語では +22.89。 ベトナム語では +6.88。 インド系言語では +6.61。 ドイツ語では +6.47。 日本語では +4.63。 オランダ語では +4.26。 スカンジナビア言語では +3.93。 欧州系言語では +4.40。 フランス語では +1.54。
これらの改善幅は、論文中で比較対象とされた各MTEBベンチマークの従来トップスコアとの差分である。
英語や多言語ベンチマークでも、トップクラスのモデルと同等の性能を示している。
ここで大事なのは、「低リソース言語に強い」ということを、単なる社会貢献の話に閉じないことだ。
低リソース言語に強いモデルは、市場を広げる。 研究対象を広げる。 知識アクセスを広げる。 そして、AIが扱える世界そのものを広げる。
AIの性能とは、英語のベンチマークで勝つことだけではない。
どれだけ多くの言語を、どれだけ雑に扱わずに済むか。 そこにも、かなり本質的な性能がある。
小規模モデルにも意味がある
ML-Embedは8Bモデルだけの話ではない。
0.3Bや0.6Bの小規模モデルでも、低リソース言語、コード、医療ベンチマークで既存モデルに対する優位性が示されている。
もちろん、英語や中国語では一部の既存モデルに劣る領域もある。
だが、それはむしろML-Embedの立ち位置をはっきりさせている。
このモデルは、英語圏のベンチマークだけで一点突破するモデルではない。 多言語、多領域、低コスト、オープン性をまとめて取りにいくモデルだ。
実用AIでは、最大性能だけがすべてではない。
現場で動くか。 安く動くか。 ローカルに適応できるか。 検証できるか。 小さくしても壊れにくいか。
このあたりの条件を満たすモデルは、派手なデモよりも長く使われる可能性がある。
実装イメージ:多言語ローカルRAG端末
ML-Embedの使い道として、いちばん現実味があるのは、多言語ローカルRAG端末だと思う。
たとえば、自治体、学校、診療所、避難所、図書館、NGOの現場を考える。
そこには、紙やPDFの情報が大量にある。
手続き案内。 医療パンフレット。 防災マニュアル。 学校のお知らせ。 生活支援のFAQ。 地域ごとのルール。 多言語化された配布資料。
問題は、情報が存在していても、必要な人が必要な言語で探せるとは限らないことだ。
日本語の資料はある。 英語版も一部ある。 ベトナム語、ポルトガル語、ネパール語、中国語、タガログ語は断片的にある。 でも、利用者は自分の言葉で質問する。
「子どもの予防接種はどこで受けられますか」 「災害のとき、ペットを連れて避難できますか」 「この薬を飲んでいる場合、どの窓口に相談すればいいですか」 「学校を休むとき、どこに連絡すればいいですか」
ここでML-Embedのような多言語Embeddingを使う。
資料をチャンクに分ける。 各チャンクをEmbedding化する。 ローカルのベクトルDBに保存する。 ユーザーの質問もEmbedding化する。 意味的に近い資料を検索する。 必要なら、翻訳モデルや小型LLMで回答を整える。 回答には、必ず元資料への参照を付ける。
この構成なら、Embeddingが担当するのは「意味で探す」部分だ。
翻訳は翻訳モデルが担当する。 回答生成はLLMが担当する。 出典管理はRAGの設計で担保する。
役割分担がはっきりしている。
ML-Embedが翻訳機になるわけではない。 でも、言語の違いをまたいで「どの情報が関係しているか」を探す中核部品になれる。
なぜローカルRAGなのか
クラウドでやればいい、という考え方もある。
実際、多くの用途ではクラウドのほうが楽だ。 大きなモデルを使えるし、更新も簡単だ。
それでも、ローカルRAGには独自の意味がある。
まず、通信環境に依存しない。 災害時、地方、学校、医療現場、移動中の支援活動では、ネットワークが安定しているとは限らない。
次に、プライバシーを守りやすい。 医療、教育、行政相談では、質問内容そのものが個人情報になり得る。 端末内で検索できるなら、クラウドに送らずに済む範囲が増える。
さらに、運用コストを抑えやすい。 毎回APIを叩くのではなく、端末内で検索処理を完結させられる。
このとき、MELの圧縮特性が効いてくる。
Embeddingモデルが軽くなれば、小型PC、タブレット、学校内サーバー、自治体の閉域環境でも運用しやすくなる。
つまりML-Embedの価値は、「すごいモデルを作った」だけではない。 AIをクラウドの外へ出し、現場の手元に近づけるところにある。
具体的な構成案
かなり素朴な構成なら、こうなる。
まず、対象文書を集める。 自治体資料、FAQ、医療案内、防災資料、学校配布物などをPDFやHTMLから取り込む。
次に、文書をチャンク化する。 1つの資料を、検索しやすい短い単位に分ける。
その後、ML-Embedで各チャンクをベクトル化する。 ベクトルはローカルのベクトルDBに保存する。
ユーザーが質問すると、その質問もML-Embedでベクトル化される。 システムは意味的に近いチャンクを検索する。
最後に、必要であれば小型LLMや翻訳モデルが、検索結果を読みやすい回答に整える。 ただし、回答には必ず参照元を付ける。
この構成で大事なのは、最初から万能AIを作ろうとしないことだ。
目指すのは、「何でも答えるAI」ではない。 まずは、手元にある信頼済み文書を、必要な人が自分の言葉で探せるようにする。
このほうが実装しやすい。 リスクも低い。 効果も測りやすい。
AI導入というより、検索体験の再設計に近い。
医療・教育・公共分野との相性
この実装イメージは、医療、教育、公共分野と相性がいい。
医療では、患者向け資料、地域の受診案内、薬の説明、予防接種情報などを多言語で探せるようになる。 現代の医療文書は、実務上ほとんどが各国語で書かれている。 ラテン語ではなく、生活者の言葉で動いている。
教育では、教材、単元、問題、解説、学習履歴を意味ベースでつなげられる。 キーワード一致では見つからない関連教材を探したり、母語が異なる生徒に近い説明を提示したりできる。
公共分野では、行政手続き、防災、福祉、学校連絡、地域ルールの検索に使える。 特に外国人住民が多い地域では、「資料はあるが、見つけられない」という問題が起きやすい。
Embeddingは、ここを助ける。
翻訳だけでは足りない。 検索だけでも足りない。 必要なのは、言語をまたいで意味をつなぐ層だ。
戦略的意義:効率化と公平性は、同時に進められる
ML-Embedの面白さは、性能向上だけではない。
効率化と公平性を、対立するものとして扱っていないところにある。
ふつう、多言語対応はコスト増と見なされる。
対応言語を増やすには、もっと大きなモデルが必要。 もっと多くのデータが必要。 もっと多くの計算資源が必要。
もちろん、その面はある。
しかしML-Embedは、3Dマトリョーシカ学習によって、モデルを軽くしながら多言語性能を伸ばす方向を示している。
これは、AIの作り方としてかなり大きな転換だ。
ただ巨大化するのではなく、構造で効率を引き出す。 英語中心に最適化するのではなく、低リソース言語も最初から視野に入れる。 APIの裏側に閉じるのではなく、モデル、データ、コードを開く。
この方向性は、今後のAIインフラにとってかなり重要になる。
Embeddingは「意味のOS」になるかもしれない
ここで、少し踏み込んだ見方をしてみたい。
Embeddingは、今後「意味のOS」のような役割を持つかもしれない。
OSは、アプリケーションとハードウェアの間に立ち、計算資源を扱いやすくする。
Embeddingは、言語、文書、コード、教材、医療記録、FAQ、ユーザーの質問を、意味空間に置き直す。 その上で、検索、推薦、分類、RAG、要約、翻訳支援といったアプリケーションが動く。
つまりEmbeddingは、AIアプリケーションの下にある共通レイヤーになり得る。
このレイヤーが英語中心なら、その上に載るアプリケーションも英語中心になる。 このレイヤーが重すぎれば、クラウドに依存する。 このレイヤーが不透明なら、検証できない。
だからこそ、多言語で、軽量で、オープンなEmbeddingモデルには意味がある。
ML-Embedは、その条件をかなり意識している。
もちろん、過信はできない
ただし、ML-Embedがすべてを解決するわけではない。
ベンチマークで高性能でも、現場でそのまま価値が出るとは限らない。
医療や教育で使うなら、データ品質、専門家による検証、安全性、説明可能性が必要になる。 公共分野で使うなら、誤回答時の責任や、情報更新の仕組みも考えなければならない。
また、低リソース言語で性能が上がったとしても、その言語圏の人々による評価は欠かせない。
言語は、単語の集合ではない。 文化、制度、方言、言い回し、専門用語、生活文脈が混ざっている。
「282言語対応」という数字は強い。 でも、その数字だけで安心してはいけない。
さらに、Embeddingは翻訳でも生成でもない。
ML-Embedを入れれば、自動的に多言語チャットボットが完成するわけではない。 Embeddingが担うのは、主に意味検索、類似度計算、分類、RAGの土台だ。
翻訳には翻訳モデルが必要だ。 回答生成にはLLMが必要だ。 安全な運用には、出典管理と評価設計が必要だ。
この役割分担を間違えると、Embeddingモデルに過剰な期待を背負わせることになる。
まとめ:AIの地図を、英語だけで描かない
ML-Embedは、Embeddingモデルの新しい方向性を示している。
巨大モデルをさらに巨大にするだけではない。 多言語で、軽量で、オープンで、検証可能な意味インフラを作ろうとしている。
282の自然言語。 40を超えるプログラミング言語。 5,000万サンプル。 3次元マトリョーシカ学習。 低リソース言語での大幅な性能向上。
この研究が投げかけている問いは、かなりシンプルだ。
AIの意味の地図を、英語だけで描いていいのか。
世界には、英語で書かれていない知識がある。 英語で検索されない悩みがある。 英語で評価されない文脈がある。 英語のベンチマークに載らない現場がある。
AIが本当に社会インフラになるなら、そこを無視するわけにはいかない。
ML-Embedは、そのための完成形ではない。 だが、かなり重要な一歩だと思う。
AIをより大きくするだけでなく、より広く、より軽く、より開かれたものにする。
その方向に進むための、ひとつの実験であり、かなり実用的な実験でもある。
注記
本文中のMTEB提出数や各ベンチマークの改善幅は、ML-Embed論文に記載された評価結果に基づく。MTEB Leaderboardは更新されるため、現在の順位や提出数とは異なる可能性がある。
また、arXiv上の公開日は2026年5月14日と表記されている。日本時間では2026年5月15日相当となるため、国内向けの紹介では「2026年5月15日公開」と記載される場合がある。
出典・参考リンク
- Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang. “ML-Embed: Inclusive and Efficient Embeddings for a Multilingual World,” arXiv:2605.15081, 2026.
- CodeFuse AI. “CodeFuse-Embeddings,” GitHub.
- CodeFuse AI. “Codefuse Embeddings,” Hugging Face Collection.
- Niklas Muennighoff, Nouamane Tazi, Loïc Magne, Nils Reimers. “MTEB: Massive Text Embedding Benchmark,” arXiv:2210.07316, 2022.
- MTEB. “MTEB Leaderboard,” Hugging Face Spaces.
- Aditya Kusupati et al. “Matryoshka Representation Learning,” arXiv:2205.13147, 2022.