跳到主要内容

理解运行的概念

什么是运行？

在EvalsOne中，“运行”是指对一个或多个模型、提示语进行一次完整的评估过程。通过运行，您可以对模型和提示语进行测试和评估，以便优化生成结果。每次运行都可以生成详细的报告，包含评估的结果和分析。

运行的好处

高效评估：通过自动化的运行流程，批量操作，大大提高了评估效率，节省了人工操作的时间。
详细分析：每次运行都生成详尽的报告，帮助您深入了解生成式AI的表现和存在的问题。
持续优化：通过多次运行和对比，逐步优化模型和提示语，通过系统的过程提高生成式AI应用程序的质量。

运行的层级

EvalsOne中的每一个“运行”相互独立，但也有层级的划分：

主运行（R0）：从头开始创建的评估运行我们可以将其称为主运行，对应的级别是R0。
迭代运行(L1~L4)：在已有运行基础上可以快速创建迭代运行（Fork run）。每次迭代时可以切换模版版本、生成模型、评估指标等单项设置，适用于持续改进、全面考量、比较分析和优化。

在运行列表中，您可以通过扁平视图或树形视图浏览所有运行，并查看运行之间的层级关系。

运行列表

运行的步骤

选择模型：从EvalsOne支持的模型中选择一个或多个模型，可以是云端模型或本地部署的模型。
准备数据：EvalsOne支持多种准备评估样本数据的方式，包括手动添加、批量导入、通过模板和变量值列表快速合成，还可以利用LLM自动扩展变量值列表。
设置评估指标：EvalsOne内置多种行业领先的评估指标，也支持自定义指标，可以满足从简单到复杂的各种使用场景。
启动运行：配置完成后，启动运行。EvalsOne将自动执行评估，并生成详细的结果报告。
查看报告：运行结束后，可以查看生成的报告，报告中包含了各项指标的详细评分和图表可视化呈现。

通过理解运行的概念并熟练掌握其操作，您可以更高效地评估和优化生成式AI应用程序，确保其在实际应用中的表现更加优异。

什么是运行？
运行的好处
运行的层级
运行的步骤