LangFuse:LLM应用的观察和分析解决方案

Langfuse 概述

Langfuse 是一个开源的 LLM 工程平台 (GitHub), 帮助团队协作调试、分析和迭代他们的 LLM 应用程序。所有平台功能都是原生集成的,以加速开发工作流程。

Langfuse 是开放的、自托管的和可扩展的 (为什么选择 Langfuse?)

可观测性

可观测性对于理解和调试 LLM 应用程序至关重要。与传统软件不同,LLM 应用程序涉及复杂的、非确定性的交互,监控和调试可能具有挑战性。Langfuse 提供全面的跟踪功能,帮助您准确理解应用程序中发生的情况。

  • 跟踪包括所有 LLM 和非 LLM 调用,包括检索、嵌入、API 调用等。
  • 支持将多次对话追踪为会话和用户跟踪
  • 智能体可以用图表示
  • 通过 Python/JS 的原生 SDK、50 + 库 / 框架集成、OpenTelemetry 或通过 LLM 网关 (如 LiteLLM) 捕获跟踪

评估

评估对于确保 LLM 应用程序的质量和可靠性至关重要。Langfuse 提供了灵活的评估工具,可以根据您的特定需求进行调整,无论是在开发中进行测试还是监控生产性能。

  • 开始使用不同的评估方法:LLM 作为评判者、用户反馈、手动标记或自定义
  • 通过对生产轨迹运行评估来及早识别问题
  • 创建和管理用于开发系统测试的数据集,以确保应用程序在不同场景中可靠地执行
  • 运行实验以系统地测试你的 LLM 应用程序

核心平台功能

发展
  • 可观察性:检测您的应用程序并开始将跟踪记录引入 Langfuse(快速入门、跟踪)
    • 跟踪应用程序中的所有 LLM 调用和所有其他相关逻辑
    • 适用于 Python 和 JS/TS 的异步 SDK以及API
    • OpenAI SDK、Langchain、LlamaIndex、LiteLLM、Flowise 和 Langflow 的集成
  • Langfuse UI:检查和调试复杂的日志和用户会话(演示、跟踪、会话)
  • 提示:从 Langfuse 内部管理、版本控制和部署提示(提示管理)
监视器
  • 分析:跟踪指标(LLM 成本、延迟、质量)并从仪表板和数据导出中获取见解(分析)
  • 评估:收集并计算您完成 LLM 的分数(分数和评估)
    • 运行基于模型的评估
    • 收集用户反馈
    • 在 Langfuse 中手动对观察结果进行评分
测试
  • 实验:在部署新版本之前跟踪和测试应用程序行为
    • 数据集可让您在部署之前测试预期的输入和输出对以及基准性能
    • 跟踪应用程序中的版本和发布(实验、提示管理)
作者:Jeebiz  创建时间:2024-03-20 13:10
最后编辑:Jeebiz  更新时间:2025-10-24 00:21