What is Embedding Anyway
How to Embedding
我们先从使用者的角度看看一个 embedding 模型是怎么样用的,以 Jina.ai 的 embedding 模型 为例:
- 输入:
Text,Image - 输出:
Vector - 主要配置项:
Output dimensions
Example
如果你没有做过 RAG 应用,你可能会误以为只需要把需要 index 的内容经过一层 embedding 之后,再通过向量 数据库 相似度等进行召回就可以。然而实际的情况是,embedding 的模型是有输入长度限制的,对于一个非常大的文档,比如 PDF 来说,你可能需要长文分块(Chunking)。本文默认你已经有相关的 context,不对背景做过多介绍,只介绍一些常见的 embedding 策略,作为学习的记录。