概览#

什么是评估？#

评估是检查您的 AI 工作流是否可靠的关键技术。它可能是不稳定的概念验证和稳固的生产工作流之间的关键区别。在构建阶段和部署到生产环境后，评估都非常重要。

评估的基础是通过您的工作流运行测试数据集。该数据集包含多个测试用例。每个测试用例包含您工作流的样本输入，并且通常也包含预期的输出。

评估允许您：

以下视频解释了什么是评估、为什么有用以及它们如何工作：

AI 模型从根本上不同于代码。代码是确定性的，您可以对其进行推理。对于 LLM 来说这很难做到，因为它们是黑盒子。相反，您必须通过运行数据并观察输出来测量 LLM 输出。

只有在对多个准确反映生产环境中必须处理的所有边缘情况的输入运行模型后，您才能建立对模型可靠性能的信心。

构建干净、全面的数据集是困难的。在初始构建阶段，通常只需生成少数几个示例就有意义。这些足以将工作流迭代到可发布状态（或概念验证）。您可以直观地比较结果以了解工作流的质量，无需设置正式的指标。

一旦您部署工作流，就更容易从生产执行中构建更大、更具代表性的数据集。当您发现错误时，可以将导致错误的输入添加到数据集中。修复错误时，重要的是再次在整个数据集上运行工作流作为回归测试，以检查修复是否无意中使其他地方变得更糟。

由于有太多测试用例需要单独检查，评估使用指标（代表特定特征的数值）来测量输出的质量。这也允许您跟踪运行之间的质量变化。

此页面是否

💬 微信

关注公众号

n8n实战笔记
📚 教程 💡 案例 🔧 技巧

添加微信

1对1 专业指导
⚡ 快答 🎯 定制 🚀 支持

添加后请直说来意，看到会回复。谢谢