跳到主要内容

准备评估样本

目前大语言模型的API主流调用方式是对话(Chat message)形式进行的,在EvalsOne,在运行中包含的每一条评估样本也是以对话(Chat message)的形式存在的。

EvalsOne支持以下三种方式在创建运行时动态添加对话样本:

  1. 使用模板和变量值列表合成样本
  2. 使用事先准备好的样本集
  3. 通过输入或复制/粘贴代码添加

使用模板和变量值列表

如果用于评估的不同样本之间,只有一部分内容发生改变(例如:用户最新提出的问题),而其它的内容都是相同的(比如系统提示语、以往轮次的聊天内容)。

这时,就可以创建一个对话模版,并在某段对话内容中插入变量名,然后再准备一个与此对应的变量值列表,就可以在创建运行时动态将变量名替换为不同的取值,批量生成评估样本。

使用事先准备好的样本集

使用事先准备好的样本集适合已经有现成测试数据的情况,可以直接导入EvalsOne进行评估。样本集中的样本可以通过JSONL文件的方式导入,也可以通过API调用的方式添加,或者手动输入样本代码添加。

这种方式比较适合于样本之间没有太多的相似性的情况。

通过输入或复制/粘贴代码添加

您还可以通过直接在编辑器中输入消息对话的Json代码,或者从OpenAI, Claude, Gemini等厂商提供的Playground中复制对话样本的代码,然后粘贴到EvalsOne的编辑器中,EvalsOne将会自动将其转化为评估样本,并用于创建运行。

这种方式比较适合于批量运行单个样本的情况,以及平时比较习惯使用Playground测试对话效果的用户。