Token / Embedding

约 602 个字预计阅读时间 2 分钟

做什么：先把整段文本拆成词语、短语、句子，同时过滤掉无用的虚词（的、地、得、啊）和重复信息。技术支撑：中文分词（比如把 “计算机视觉” 拆成一个整体，而不是 “计算 / 机 / 视觉”）、词性标注（识别名词、动词、形容词）。

tokenizer(分词器)¶

一个大模型，有一个自己的tokenizer

embedding 是将文本、图像等非数值数据转化为**数值向量**的一种技术。 Word2Vec、GloVe 和 BERT 等模型通过神经网络或统计方法将词语映射为 ****高维实数向量, 也就是一个数组**（例如 100 维、300 维）。这些向量的本质是 语义的数学表示

embedding的特点:

Embedding 可以捕捉词汇和句子的语义信息。相似的词语和句子在向量空间中也会相近。余弦相似性

大多数机器学习模型需要数值型输入,Embedding 可以将文本转换为合适的输入格式。

Embedding 可以大幅压缩文本信息,降低计算复杂度。基于向量运算的模型计算效率更高。

用于存储和管理高维向量数据的数据库系统，支持高效的向量检索和相似度搜索。

使用场景: - 推荐系统: 根据用户的历史行为和偏好，推荐相似的商品或内容。 - 图像检索: 根据输入图像的特征向量，检索数据库中相似的图像。 - 自然语言处理: 通过文本的向量表示，进行语义搜索和问答系统。

名词	概念
分词器（Tokenizer）	将Prompt拆分为离散的Token
embedding	将Token转换为高维向量
编码器	提取深层语义特征
解码器	逐步预测下一个Token（如使用 Top-k采样或束搜索或贪心搜索）

映射表的大小取决于词汇表的大小和 embedding 向量的维度

通过V × D 的矩阵，用来把 token id → 高维向量