LangFuse:LLM应用的观察和分析解决方案
Langfuse 概述
Langfuse 是一个开源的 LLM 工程平台 (GitHub), 帮助团队协作调试、分析和迭代他们的 LLM 应用程序。所有平台功能都是原生集成的,以加速开发工作流程。
Langfuse 是开放的、自托管的和可扩展的 (为什么选择 Langfuse?)

可观测性
可观测性对于理解和调试 LLM 应用程序至关重要。与传统软件不同,LLM 应用程序涉及复杂的、非确定性的交互,监控和调试可能具有挑战性。Langfuse 提供全面的跟踪功能,帮助您准确理解应用程序中发生的情况。
- 跟踪包括所有 LLM 和非 LLM 调用,包括检索、嵌入、API 调用等。
- 支持将多次对话追踪为会话和用户跟踪
- 智能体可以用图表示
- 通过 Python/JS 的原生 SDK、50 + 库 / 框架集成、OpenTelemetry 或通过 LLM 网关 (如 LiteLLM) 捕获跟踪
评估
评估对于确保 LLM 应用程序的质量和可靠性至关重要。Langfuse 提供了灵活的评估工具,可以根据您的特定需求进行调整,无论是在开发中进行测试还是监控生产性能。
- 开始使用不同的评估方法:LLM 作为评判者、用户反馈、手动标记或自定义
- 通过对生产轨迹运行评估来及早识别问题
- 创建和管理用于开发系统测试的数据集,以确保应用程序在不同场景中可靠地执行
- 运行实验以系统地测试你的 LLM 应用程序
核心平台功能
发展
- 可观察性:检测您的应用程序并开始将跟踪记录引入 Langfuse(快速入门、跟踪)
- 跟踪应用程序中的所有 LLM 调用和所有其他相关逻辑
- 适用于 Python 和 JS/TS 的异步 SDK以及API
- OpenAI SDK、Langchain、LlamaIndex、LiteLLM、Flowise 和 Langflow 的集成
- Langfuse UI:检查和调试复杂的日志和用户会话(演示、跟踪、会话)
- 提示:从 Langfuse 内部管理、版本控制和部署提示(提示管理)
监视器
- 分析:跟踪指标(LLM 成本、延迟、质量)并从仪表板和数据导出中获取见解(分析)
- 评估:收集并计算您完成 LLM 的分数(分数和评估)
- 运行基于模型的评估
- 收集用户反馈
- 在 Langfuse 中手动对观察结果进行评分
测试
- 实验:在部署新版本之前跟踪和测试应用程序行为
- 数据集可让您在部署之前测试预期的输入和输出对以及基准性能
- 跟踪应用程序中的版本和发布(实验、提示管理)
作者:Jeebiz 创建时间:2024-03-20 13:10
最后编辑:Jeebiz 更新时间:2025-10-24 00:21
最后编辑:Jeebiz 更新时间:2025-10-24 00:21