双评模式
双评模式是一种高精度批改方式,使用两个 AI 模型独立评分,当分差超过阈值时自动触发第三模型仲裁。适合对评分准确性要求较高的场景,如重要考试、竞赛评卷等。
工作原理
试卷 → 主模型评分 ─┐
├→ 比较分差
试卷 → 副模型评分 ─┘
│
┌─────────┴─────────┐
↓ ↓
分差 ≤ 阈值 分差 > 阈值
取平均分 启动仲裁模型
(共识结果) (仲裁结果)- 并发评分:主模型和副模型同时对同一份试卷独立评分
- 分差比较:计算两个分数的差值
- 共识判定:如果分差 ≤ 阈值(默认 2 分),取平均分作为最终得分
- 仲裁判定:如果分差 > 阈值,启动仲裁模型进行第三轮评分,仲裁模型给出最终裁定
配置方法
使用内置双评工作流
脚本内置了「双评模式(高精度)」工作流,开箱即用:
| 配置项 | 默认值 |
|---|---|
| 主模型 | aimarker-fast(不思考) |
| 副模型 | aimarker-fast(不思考) |
| 仲裁模型 | aimarker-pro(默认深度) |
| 分差阈值 | 2 分 |
自定义双评工作流
- 在设置面板中点击「批改工作流」→「编辑」或「新建」
- 勾选「启用双评模式」
- 配置:
- 副模型:选择供应商、模型和思考链深度
- 仲裁模型:建议使用更高精度的模型(如 aimarker-pro)
- 分差阈值:两个模型分差超过此值时触发仲裁(默认 2 分)
配合批改模式使用
双评模式可以与三种提交模式组合使用:
| 组合 | 说明 |
|---|---|
| 双评 + 普通模式 | 双评完成后 5 秒倒计时提交,可查看双评详情后确认 |
| 双评 + 试改模式 | 双评完成后等待教师确认,可纠错 |
| 双评 + 无人值守 | 双评完成后 1 秒自动提交,适合大批量 |
双评结果详情
批改完成后,提交对话框会显示完整的双评详情:
共识结果(分差 ≤ 阈值)
- 双评结果:分差、判定(✓ 共识)
- 老师 A:得分、评分依据、分数计算
- 老师 B:得分、评分依据、分数计算
仲裁结果(分差 > 阈值)
- 双评结果:分差、判定(⚠ 三评仲裁)
- 老师 A:得分、评分依据、分数计算
- 老师 B:得分、评分依据、分数计算
- 仲裁结果:仲裁得分、仲裁分析
历史记录中的双评
评阅历史中每条双评记录都会显示:
- 双评标签(共识/仲裁)
- 详情抽屉中展示完整的老师 A/B 评分和仲裁结果
- CSV 导出包含老师 A/B 的评分依据、分数计算和仲裁分析
使用建议
- 首次使用:建议先用「试改模式 + 双评」组合,观察两个模型的评分差异
- 阈值设置:对于满分 100 分的题目,阈值 2 分是比较合理的;满分较小的题目可以适当降低
- 模型选择:主副模型建议使用不同模型,交叉验证效果更好;仲裁模型建议使用精度最高的
- 成本考虑:双评模式的 API 调用量是普通模式的 2-3 倍,请注意 API 额度
常见问题
双评模式比普通模式慢多少?
双评模式需要调用 2 个(或 3 个)模型,耗时约为普通模式的 1.5-2 倍(因为并发调用)。如果触发仲裁,耗时会更长。
两个模型都失败了怎么办?
如果主模型和副模型都失败,会抛出错误。如果只有一个失败,会使用另一个模型的结果(fallback 模式)。
可以只用双评不用仲裁吗?
可以。将分差阈值设置得很大(如 100),就不会触发仲裁。此时双评结果就是两个模型的平均分。
仲裁模型和主副模型可以是同一个吗?
技术上可以,但不建议。仲裁的意义在于引入第三方视角,使用相同的模型会降低仲裁的价值。