EmbeddingGemma

Embedding Gemma 是一个 300M 参数,其规模是最先进的,来自 Google 的开放式 Embedding 模型,基于 Gemma 3 (使用 T5Gemma 初始化) 构建,并使用与创建 Gemini 模型相同的研究和技术。Embedding Gemma 生成文本的向量表示,使其非常适合搜索和检索任务,包括分类、聚类和语义最近邻搜索。该模型使用 100 多种口语语言的数据进行了训练。

小尺寸和对设备的关注使得在资源有限的环境中部署成为可能,例如手机、笔记本电脑或台式机,使人们能够民主地获取最新的人工智能模型,并有助于促进每个人的创新。

训练数据集

该模型在一个文本数据集上进行训练,该数据集包含各种来源,总计约 3200 亿个标记。以下是关键组成部分:

Web 文档:多样化的 Web 文本集合确保模型接触到广泛的语言风格、主题和词汇量。训练数据集包含 100 多种语言的内容。
代码和技术文档:将模型暴露在代码和技术文档中,有助于模型学习编程语言的结构和模式以及专业化的科学内容,从而提高其对代码和技术问题的理解。
合成和任务特定数据:合成训练数据有助于教授模型特定技能。这包括信息检索、分类和情感分析等任务的精选数据,有助于微调其在常见嵌入式应用中的性能。
这些不同数据源的组合对于训练一个强大的多语言嵌入式模型至关重要,该模型可以处理各种不同的任务和数据格式。

作者:Jeebiz  创建时间:2025-10-18 00:30
最后编辑:Jeebiz  更新时间:2025-10-18 01:16