理解运行的概念
什么是运行?
在EvalsOne中,“运行”是指对一个或多个模型、提示语进行一次完整的评估过程。通过运行,您可以对模型和提示语进行测试和评估,以便优化生成结果。每次运行都可以生成详细的报告,包含评估的结果和分析。
运行的好处
- 高效评估:通过自动化的运行流程,批量操作,大大提高了评估效率,节省了人工操作的时间。
- 详细分析:每次运行都生成详尽的报告,帮助您深入了解生成式AI的表现和存在的问题。
- 持续优化:通过多次运行和对比,逐步优化模型和提示语,通过系统的过程提高生成式AI应用程序的质量。
运行的层级
EvalsOne中的每一个“运行”相互独立,但也有层级的划分:
- 主运行(R0):从头开始创建的评估运行我们可以将其称为主运行,对应的级别是R0。
- 迭代运行(L1~L4):在已有运行基础上可以快速创建迭代运行(Fork run)。每次迭代时可以切换模版版本、生成模型、评估指标等单项设置,适用于持续改进、全面考量、比较分析和优化。
在运行列表中,您可以通过扁平视图或树形视图浏览所有运行,并查看运行之间的层级关系。
运行的步骤
- 选择模型:从EvalsOne支持的模型中选择一个或多个模型,可以是云端模型或本地部署的模型。
- 准备数据:EvalsOne支持多种准备评估样本数据的方式,包括手动添加、批量导入、通过模板和变量值列表快速合成,还可以利用LLM自动扩展变量值列表。
- 设置评估指标:EvalsOne内置多种行业领先的评估指标,也支持自定义指标,可以满足从简单到复杂的各种使用场景。
- 启动运行:配置完成后,启动运行。EvalsOne将自动执行评估,并生成详细的结果报告。
- 查看报告:运行结束后,可以查看生成的报告,报告中包含了各项指标的详细评分和图表可视化呈现。
通过理解运行的概念并熟练掌握其操作,您可以更高效地评估和优化生成式AI应用程序,确保其在实际应用中的表现更加优异。