跳到主要内容

理解运行的概念

什么是运行?

在EvalsOne中,“运行”是指对一个或多个模型、提示语进行一次完整的评估过程。通过运行,您可以对模型和提示语进行测试和评估,以便优化生成结果。每次运行都可以生成详细的报告,包含评估的结果和分析。

运行的好处

  • 高效评估:通过自动化的运行流程,批量操作,大大提高了评估效率,节省了人工操作的时间。
  • 详细分析:每次运行都生成详尽的报告,帮助您深入了解生成式AI的表现和存在的问题。
  • 持续优化:通过多次运行和对比,逐步优化模型和提示语,通过系统的过程提高生成式AI应用程序的质量。

运行的层级

EvalsOne中的每一个“运行”相互独立,但也有层级的划分:

  1. 主运行(R0):从头开始创建的评估运行我们可以将其称为主运行,对应的级别是R0。
  2. 迭代运行(L1~L4):在已有运行基础上可以快速创建迭代运行(Fork run)。每次迭代时可以切换模版版本、生成模型、评估指标等单项设置,适用于持续改进、全面考量、比较分析和优化。

在运行列表中,您可以通过扁平视图树形视图浏览所有运行,并查看运行之间的层级关系。

运行列表

运行的步骤

  1. 选择模型:从EvalsOne支持的模型中选择一个或多个模型,可以是云端模型或本地部署的模型。
  2. 准备数据:EvalsOne支持多种准备评估样本数据的方式,包括手动添加、批量导入、通过模板和变量值列表快速合成,还可以利用LLM自动扩展变量值列表。
  3. 设置评估指标:EvalsOne内置多种行业领先的评估指标,也支持自定义指标,可以满足从简单到复杂的各种使用场景。
  4. 启动运行:配置完成后,启动运行。EvalsOne将自动执行评估,并生成详细的结果报告。
  5. 查看报告:运行结束后,可以查看生成的报告,报告中包含了各项指标的详细评分和图表可视化呈现。

通过理解运行的概念并熟练掌握其操作,您可以更高效地评估和优化生成式AI应用程序,确保其在实际应用中的表现更加优异。