跳到主要内容

在生成和评估中使用模型

在结果生成和评估环节中,都可以使用大语言模型。

在生成中使用模型

在创建运行时,如果你选择的运行类型是“生成并评估”,那么首先你需要选择用于生成的大模型。你可以看到一些预置的共享模型,这些模型可以直接使用,无需配置API key,运行时会消耗你账户中的余额。

如果你希望使用自己的私有模型运行生成,EvalsOne也支持添加自己的模型(需要是构建者以上的会员计划),我们支持大多数常用的模型和提供商,如OpenAI, Anthropic, Google Gemini, Mistral, Microsoft Azure, Ollama等。在使用大模型用于生成时,还可以设置生成的温度、轮次等选项。

在评估中使用模型

相对于传统的基于规则的评估方式,使用大模型作为考官对生成结果进行评估,能够极大提高评估效率和灵活性。

如果你选择的评估器需要用到大模型,那么在创建运行时,你可以选择将哪一款模型用于评估。不过,考虑到模型的能力直接关系到评估的效果,建议使用GPT-4或Claude-3等能力较强的大语言模型作为评估模型。