What is Embedding Anyway

How to Embedding

我们先从使用者的角度看看一个 embedding 模型是怎么样用的,以 Jina.ai 的 embedding 模型 为例:

  • 输入:Text, Image
  • 输出:Vector
  • 主要配置项:Output dimensions

Example

如果你没有做过 RAG 应用,你可能会误以为只需要把需要 index 的内容经过一层 embedding 之后,再通过向量 数据库 相似度等进行召回就可以。然而实际的情况是,embedding 的模型是有输入长度限制的,对于一个非常大的文档,比如 PDF 来说,你可能需要长文分块(Chunking)。本文默认你已经有相关的 context,不对背景做过多介绍,只介绍一些常见的 embedding 策略,作为学习的记录。

Heuristics Method