跳到主要内容

设定评估指标

EvalsOne支持自动评估和人工评估。

自动评估

自动评估是指根据特定的评估算法/规则或利用大型语言模型等自动化工具,对生成结果进行评估。自动评估的优势在于效率高、成本低,但是对于某些复杂的评估目标,自动评估的效果可能不如人工评估。

在自动评估中,可以根据评估的目的和需求,设定合适的评估器。评估器是评估生成结果质量的标准,是评估的依据,不同的评估器对应不同的评估目标。设定合适的评估指标对于最终的评估效果至关重要。

我们提供了一些预置的评估器可供选择,可用于常见的评估场景。用户还可以根据需要添加自定义的评估器,来满足更加个性化的评估需求,

评估器按照评估方法来划分,又可分为:

  • 基于规则的评估器
  • 基于大语言模型提示语的评估器
  • 基于其他模型的评估器(如嵌入模型)

每一种评估器得出的评价形式可以分为以下三种:

  1. 等级,如A/B/C/D/E等级
  2. 分数,如0~1之间的任意得分
  3. 断言,分为通过(Pass)和不通过(Failed)

等级、得分和通过与否之间是可以转换的,它们的转换关系如下:

转换图

人工评估

人工评估是指由人工评估员对生成结果进行评估,人工评估的优势在于能够更好地利用专家的经验和判断力,对生成结果进行更加细致和全面的评估。但是人工评估的成本较高,效率较低。

创建人工评估时,需要指定评价的形式是分数还是断言。分数是指评估员根据预设的评估标准,对生成结果进行打分,分数范围为0~10之间的任意整数。断言是指评估员根据预设的评估标准,对生成结果进行判断,判断结果为通过(Pass)或不通过(Failed)。

在所有样本评估完成后,系统会根据评估结果生成评估报告,报告中包含了各项指标的详细评分和图表可视化呈现。