OpenFlamingo 是一个支持大型多模态模型 (LMM) 训练和评估的框架。目前该项目已经在github上开源:
https://github.com/mlfoundations/open_flamingo。
目前的开源的版本为第一个版本,主要的贡献点如下所示:
🏋️ 一个用于训练 Flamingo 风格 LMM 的 Python 框架(基于 Lucidrains 的flamingo 实现和 David Hansmair 的flamingo-mini 存储库)。
🪅 具有交错图像和文本序列的大规模多模态数据集。
🧪 视觉语言任务的上下文学习评估基准。
🤖 第一个模型版本是基于 LLaMA 的 OpenFlamingo-9B 模型,还有更好的模型!
OpenFlamingo 的目标是开发一个可以处理各种视觉和语言任务的多模态系统。最终的目标是在处理视觉和文本输入方面与 GPT-4 相匹配。为了实现这一目标,所以开发了DeepMind 的 Flamingo模型的开源版本,这是一种能够处理和推理图像、视频和文本的 LMM。
目前这个模型的实现基本上是参考了DeepMind的Flamingo。Flamingo 模型在包含交错文本和图像的大规模网络语料库上进行训练,这对于赋予它们上下文中的少样本学习能力至关重要。OpenFlamingo 实现了原始 Flamingo 论文中提出的相同架构(感知器重采样器、交叉注意层)。然而,由于 Flamingo 的训练数据不向公众开放,所以这里使用开源数据集来训练我们的模型。具体来说,已发布的 OpenFlamingo-9B 模型是在一个新的多模态 C4 数据集的 5M样本和LAION-2B的 10M样本上进行训练的。
最后编辑:Jeebiz 更新时间:2025-05-12 09:20