腾讯又开源了一个顶级 AI 项目！

原文链接：https://mp.weixin.qq.com/s/UCsYRS9ERSEK8iDsL7JiiA

来源：Java后端技术

你有没有这样的困扰？为了找一个躺在某个PDF角落里的产品参数，或者为了对比几份技术手册里的差异，花了好几天时间；又或者，你是否经历过，面对一份上百页的合同或科研论文，明明知道答案就在里面，却感觉像是在大海捞针？

今天给大家推荐一款腾讯开源的基于大模型的文档理解检索框架——WeKnora，可以给这些结构复杂、格式各异的文档”装上大脑”，让你能从”手动翻找”彻底变为”开口就问”，目前该项目在GitHub上已经收获超11k star，反响非常不错！

简介

WeKnora 是一款基于大语言模型（LLM）的文档理解与语义搜索框架，专为结构复杂、内容丰富的文档场景而打造。

框架采用模型架构，融合多模态分割、语义认知索引、智能感知与大模型生成推理，构建高效、可控的文档问答流程。基于RAG（Retrieval-Augmented Generation） 的核心搜索流程，将上下文相关片段与语言模型结合，实现更高质量的语义回答。

WeKnora 采用现代化的模块化架构，将文档理解与检索流水线清晰解耦。这主要包括：

这种设计带来了极大的灵活性。你可以自由组合检索策略、大模型（支持 Ollama，可灵活切换 Qwen、DeepSeek 等主流模型）和向量数据库。同时，全链路的设计也保障了可控性，支持私有化部署，数据完全自主。

从 v0.1.3 开始，系统还增加了登录认证功能，官方强烈建议将服务部署在内网环境，并配置好防火墙，以保障安全。

确保本地已安装以下工具：

① 克隆代码仓库

# 克隆主仓库
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora

② 配置环境变量

# 复制示例配置文件
cp .env.example .env

# 编辑 .env，填入对应配置信息
# 所有变量说明详见 .env.example 注释

③ 启动服务 (含 Ollama)

检查 .env 文件中需要启动的镜像。

./scripts/start_all.sh

或者

make start-all

④ 停止服务

./scripts/start_all.sh --stop
# 或
make stop-all

启动成功后，可访问以下地址：

GitHub： https://github.com/Tencent/WeKnora

作者：Ddd4j 创建时间：2026-01-22 16:57
最后编辑：Ddd4j 更新时间：2026-02-27 09:37