跳到主要内容

新功能和改进:更多模型支持和许多实用增强

· 阅读需 3 分钟

我们很高兴地宣布了一一系列更新,包括更多模型的支持和很多实用的功能增强。具体如下:

模型支持更新:

  • 增加了对Amazon Bedrock和Groq平台上模型的支持,扩大了可评估模型的范围。
  • 与Ollama集成,允许您通过隧道评估本地模型,打破了评估的地域限制。
  • 扩展了中文模型提供商,新增了8个选项:百度文心、ChatGLM、MoonShot、阿里通义千问、百川、讯飞、天工和MiniMax。这为评估中文模型提供了更多选择。

功能增强:

  • 您现在可以导出样本和变量,方便数据的归档和共享。
  • 克隆运行时具有更大的灵活性,支持多级别克隆,满足不同场景的需求。
  • 在创建/克隆运行时,可以自定义温度和最大令牌数,实现更精细的控制。
  • 为私有模型设置最大线程数,优化资源利用。
  • 保存对话消息为模板样本,加快后续评估的准备工作。
  • 启用手动评估并支持评分,为主观评估提供便利。
  • 新增平均完成时间和模型生成稳定性指数(MGSI)作为新的基准报告指标。
  • 这些更新为用户提供了更多模型选择、更好的定制化能力和更高的效率。如果您有任何疑问,欢迎随时与我们联系。EvalsOne将继续致力于改进和创新,为AI模型评估提供更出色的体验。

这些功能能够帮助您更好地评估和优化大型语言模型的提示语,提高AI应用的质量和用户体验。我们希朥您能够喜欢这些更新,也期待您的反馈和建议。

EvalsOne的内测计划正在进行中,现在可以加入我们的waitlist,第一时间体验先进的提示语评估平台,并利用它开始构建更好的AI应用。快行动起来吧!