Skip to content

双评模式

双评模式是一种高精度批改方式,使用两个 AI 模型独立评分,当分差超过阈值时自动触发第三模型仲裁。适合对评分准确性要求较高的场景,如重要考试、竞赛评卷等。

工作原理

试卷 → 主模型评分 ─┐
                    ├→ 比较分差
试卷 → 副模型评分 ─┘

          ┌─────────┴─────────┐
          ↓                   ↓
      分差 ≤ 阈值         分差 > 阈值
      取平均分            启动仲裁模型
     (共识结果)         (仲裁结果)
  1. 并发评分:主模型和副模型同时对同一份试卷独立评分
  2. 分差比较:计算两个分数的差值
  3. 共识判定:如果分差 ≤ 阈值(默认 2 分),取平均分作为最终得分
  4. 仲裁判定:如果分差 > 阈值,启动仲裁模型进行第三轮评分,仲裁模型给出最终裁定

配置方法

使用内置双评工作流

脚本内置了「双评模式(高精度)」工作流,开箱即用:

配置项默认值
主模型aimarker-fast(不思考)
副模型aimarker-fast(不思考)
仲裁模型aimarker-pro(默认深度)
分差阈值2 分

自定义双评工作流

  1. 在设置面板中点击「批改工作流」→「编辑」或「新建」
  2. 勾选「启用双评模式」
  3. 配置:
    • 副模型:选择供应商、模型和思考链深度
    • 仲裁模型:建议使用更高精度的模型(如 aimarker-pro)
    • 分差阈值:两个模型分差超过此值时触发仲裁(默认 2 分)

配合批改模式使用

双评模式可以与三种提交模式组合使用:

组合说明
双评 + 普通模式双评完成后 5 秒倒计时提交,可查看双评详情后确认
双评 + 试改模式双评完成后等待教师确认,可纠错
双评 + 无人值守双评完成后 1 秒自动提交,适合大批量

双评结果详情

批改完成后,提交对话框会显示完整的双评详情:

共识结果(分差 ≤ 阈值)

  • 双评结果:分差、判定(✓ 共识)
  • 老师 A:得分、评分依据、分数计算
  • 老师 B:得分、评分依据、分数计算

仲裁结果(分差 > 阈值)

  • 双评结果:分差、判定(⚠ 三评仲裁)
  • 老师 A:得分、评分依据、分数计算
  • 老师 B:得分、评分依据、分数计算
  • 仲裁结果:仲裁得分、仲裁分析

历史记录中的双评

评阅历史中每条双评记录都会显示:

  • 双评标签(共识/仲裁)
  • 详情抽屉中展示完整的老师 A/B 评分和仲裁结果
  • CSV 导出包含老师 A/B 的评分依据、分数计算和仲裁分析

使用建议

  1. 首次使用:建议先用「试改模式 + 双评」组合,观察两个模型的评分差异
  2. 阈值设置:对于满分 100 分的题目,阈值 2 分是比较合理的;满分较小的题目可以适当降低
  3. 模型选择:主副模型建议使用不同模型,交叉验证效果更好;仲裁模型建议使用精度最高的
  4. 成本考虑:双评模式的 API 调用量是普通模式的 2-3 倍,请注意 API 额度

常见问题

双评模式比普通模式慢多少?

双评模式需要调用 2 个(或 3 个)模型,耗时约为普通模式的 1.5-2 倍(因为并发调用)。如果触发仲裁,耗时会更长。

两个模型都失败了怎么办?

如果主模型和副模型都失败,会抛出错误。如果只有一个失败,会使用另一个模型的结果(fallback 模式)。

可以只用双评不用仲裁吗?

可以。将分差阈值设置得很大(如 100),就不会触发仲裁。此时双评结果就是两个模型的平均分。

仲裁模型和主副模型可以是同一个吗?

技术上可以,但不建议。仲裁的意义在于引入第三方视角,使用相同的模型会降低仲裁的价值。