大语言模型(英文:Large Language Model,缩写LLM),是一种基于机器学习和自然语言处理技术的模型,它通过对大量的文本数据进行训练,学习服务人类语言理解和生成的能力,可以执行广泛的任务,包括文本总结、翻译、情感分析等。LLM 的核心思想是通过大规模的无监督训练来学习自然语言的模式和语言结构,这在一定程度上能够模拟人类的语言认知和生成过程。与传统的NLP模型相比,LLM能够更好地理解和生成自然文本,同时还能够表现出一定的逻辑思维和推理能力。
LLM 开源模型
开源团队 | 模型 | 参数量 | Hugging Face | 备注 |
---|---|---|---|---|
阿里云 | Qwen2.5 | 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B | Hugging Face、魔搭社区 | |
深度求索 | DeepSeek-R1 | Hugging Face、魔搭社区 | ||
智谱.AI | GLM-4、GLM-4V | 9B | Hugging Face、魔搭社区 | |
Microsoft | Phi-3、Phi-4 | 6B | Hugging Face | |
Meta Llama | Llama3 | 1B, 3B, 8B, 70B, 405B | Hugging Face |
LLM 开源技术
1、Text-To-Speech(文本转语言)
- Seed-TTS
Seed-TTS是由字节跳动推出的一系列大规模自回归文本到语音(TTS)模型,能够生成与人类语音难以区分的语音。它在语音上下文学习、说话人相似度和自然度方面表现出色,通过微调可进一步提升主观评分。Seed-TTS还提供了对情感等语音属性的优越控制能力,并能生成高度表达性和多样性的语音。此外,提出了一种自蒸馏方法用于语音分解,以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。还展示了Seed-TTS模型的非自回归(NAR)变体Seed-TTSDiT,它采用完全基于扩散的架构,不依赖于预先估计的音素持续时间,通过端到端处理进行语音生成。 - ChatTTS
ChatTTS 是专为对话场景设计的语音生成模型,专门用于大型语言模型 (LLM) 助手的对话任务,以及对话式音频和视频介绍等应用。它支持中英文,通过使用约 10 万小时的中英文数据进行训练,ChatTTS 在语音合成方面表现出很高的质量和自然度。 - EmotiVoice
EmotiVoice 是一个强大的开源TTS引擎,完全免费,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。 - Edge-TTS
Edge-TTS 是由微软推出的文本转语音Python库,通过微软Azure Cognitive Services
转化文本为自然语音。适合需要语音功能的开发者,GitHub上超3000星。作为国内付费TTS服务的替代品,Edge-TTS支持40多种语言和300种声音,提供优质的语音输出,满足不同开发需求。
2、Speech-To-Text(语言转文本)
- OpenVoice
OpenVoice 是一种多功能即时语音克隆方法,只需要参考说话者的一个简短音频片段即可复制其声音并生成多种语言的语音。除了复制参考说话者的音色之外,OpenVoice 还可以对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调。 OpenVoice还可以针对海量说话人训练集中未包含的语言实现零样本跨语言语音克隆。 - Whisper
Whisper 是由openai发布的一个预训练的自动语音识别(ASR)和语音翻译模型。它在 68 万小时的标记数据上进行了训练,Whisper 模型展现出了强大的泛化能力,能够在不需要微调的情况下适应许多数据集和领域。
3、RAG
- GraphRAG
GraphRAG 是一种结合了知识图谱和RAG(Retrieval Augmented Generation)技术的创新方法,旨在通过引入图结构化的知识表示和处理方式,显著增强传统RAG系统的能力。GraphRAG由微软开发并开源,其核心思想是将图结构化的知识与传统的RAG结合起来,从而提高信息检索的准确性和完整性,并为复杂查询和多步推理提供更强大的支。 - KAG
KAG 提出了一种逻辑符号引导的混合求解和推理引擎。该引擎包括三种类型的运算符:规划、推理和检索,将自然语言问题转化为结合语言和符号的问题求解过程。在这个过程中,每一步都可以利用不同的运算符,如精确匹配检索、文本检索、数值计算或语义推理,从而实现四种不同问题求解过程的集成:图谱推理、逻辑计算、Chunk 检索和 LLM 推理。
4、框架
- LangChain
LangChain 是一个用于开发由语言模型支持的应用程序的框架。它使应用程序能够:- 具有上下文感知能力:将语言模型与上下文源连接起来(提示说明、几个镜头示例、响应的内容等)
- Reason:依靠语言模型进行推理(关于如何根据提供的上下文回答、采取什么操作等)
- LangFuse
LangFuse 是一个开源 LLM 工程平台,可帮助团队协作调试、分析和迭代其 LLM 应用程序。 - LlamaIndex
LlamaIndex是一个连接大型语言模型(LLMs)与外部数据的工具,它通过构建索引和提供查询接口,使得大模型能够学习和利用私有或者特定领域的数据。 - DB-GPT
DB-GPT 是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。
目的是构建大模型领域的基础设施,通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单,更方便。 - Spring AI
Spring AI 是一个集成了多种机器学习模型和工具的Spring Boot扩展,它旨在简化AI应用的开发流程。通过Spring AI,开发者可以轻松地将AI模型集成到Spring Boot应用中,实现如自然语言处理、图像识别、推荐系统等功能。 - LangChain4j
LangChain4j 的目标是简化将 LLM 集成到 Java 应用程序的过程。
LLM 开源应用
- One API
One API 是一个通过标准的 OpenAI API 格式访问所有的大模型的接口管理和分发系统。 - Dify
Dify 是一个 LLM 应用开发平台,已经有超过 10 万个应用基于 Dify.AI 构建。它融合了 Backend as Service 和 LLMOps 的理念,涵盖了构建生成式 AI 原生应用所需的核心技术栈,包括一个内置 RAG 引擎。使用 Dify,你可以基于任何模型自部署类似 Assistants API 和 GPTs 的能力。 - SQL Chat
SQL Chat 是一个基于聊天的 SQL 客户端,使用自然语言与数据库以沟通的方式,实现对数据库的查询、修改、新增、删除等操作。 - Chat2DB
Chat2DB 是一个智能的通用SQL客户端和数据报表工具,它集成了AI的能力。Chat2DB可以帮助您更快地编写SQL查询、管理数据库、生成报告、探索数据、并且可以与多种数据库进行交互。
LLM 商用生态
供应商 | 模型 | 开放平台 | AI 产品 | 备注 |
---|---|---|---|---|
百度云 | 文心大模型 | 千帆大模型平台 | 文言一心 | |
华为云 | 盘古大模型 | |||
腾讯云 | 混元大模型 | |||
阿里云 | 通义千问(Qwen) | 阿里云百炼平台 | 通义千问 | |
阶跃星辰 | Step-2 | 阶跃星辰开放平台 | ||
月之暗面 | moonshot-v1 | Moonshot AI 开放平台 | Kimi 智能助手 | |
字节跳动 | 豆包 | 豆包 | ||
字节跳动 | 字节跳动(即梦AI) | 即梦AI | ||
深度求索 | DeepSeek | DeepSeek 开放平台 | DeepSeek | |
科大讯飞 | 讯飞星火(Spark) | 讯飞星火大模型API | ||
MiniMax | Abab、MiniMax-Text | MiniMax 开放平台 | 海螺AI | |
智谱华章 | ZhipuAI (智谱清言) | 智谱AI开放平台 | 智谱 AI 大模型 | |
智谱华章 | 聆心智能 (Emohaa) | 智谱AI开放平台 | 智谱 AI 大模型 |
作者:Jeebiz 创建时间:2025-02-12 09:18
最后编辑:Jeebiz 更新时间:2025-02-21 13:56
最后编辑:Jeebiz 更新时间:2025-02-21 13:56