TONE Bench · Tonal Order & Norm Evaluation
声律榜 · 首轮
谁最懂格律 —— 让大模型像规则引擎一样,逐字判断一首近体诗的格律对错。
测试日期
2026-07-03
题库
80 题 · 有病40 / 无病40
金标准
规则引擎
与搜韵在 2496 首真实律绝上 0 分歧对齐。
综合分
7 类型 F1 宏平均
另附平仄错字字级 F1(不计入综合分)。
| # | 模型 | 综合F1 | 错字F1 | 有效题 | 平仄 | 用韵 | 孤平 | 三平尾 | 三仄尾 | 失粘 | 重字 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 🥇 | Claude Fable 5Anthropic | 0.854 | 0.784 | 80/80 | 0.91 | 0.96 | 1.00 | 0.80 | 1.00 | 0.33 | 0.97 |
| 2 🥈 | Qwen3.7-Max阿里 · 通义千问 | 0.809 | 0.556 | 80/80 | 0.82 | 0.79 | 1.00 | 0.80 | 1.00 | 0.25 | 1.00 |
| 3 🥉 | DeepSeek V4 Pro深度求索 | 0.679 | 0.622 | 76/80 | 0.96 | 0.52 | 0.00 | 1.00 | 1.00 | 0.33 | 0.93 |
| 4 | GPT-5.5OpenAI | 0.634 | 0.905 | 76/80 | 0.83 | 0.81 | 0.67 | 0.80 | 0.00 | 0.33 | 1.00 |
| 5 | GLM-5.2智谱 AI | 0.570 | 0.200 | 67/80 | 0.73 | 0.72 | 0.00 | 0.67 | 1.00 | 0.00 | 0.87 |
| 6 | Gemini 3.1 ProGoogle | 0.552 | 0.310 | 66/80 | 0.67 | 0.73 | 1.00 | 0.50 | 0.00 | 0.00 | 0.96 |
| 7 | Claude Opus 4.8Anthropic | 0.452 | 0.116 | 80/80 | 0.39 | 0.85 | 0.00 | 0.44 | 0.67 | 0.10 | 0.71 |
| 8 | Grok-4.3xAI | 0.309 | 0.042 | 80/80 | 0.43 | 0.35 | 0.00 | 0.00 | 0.67 | 0.08 | 0.64 |
| 9 | Qwen3-30B本机基线 · 非上榜对象 | 0.128 | 0.016 | 80/80 | 0.48 | 0.24 | 0.00 | 0.18 | 0.00 | 0.00 | 0.00 |
| — | Kimi K2.6月之暗面 Moonshot · 成绩无效 | (0.726) | 0.429 | 14/80 | 0.75 | 1.00 | 1.00 | 0.67 | 0.00 | 0.67 | 1.00 |
🥇 榜首 Claude Fable 5 综合 F1 0.854,且孤平、三仄尾满分;用韵 0.96、重字 0.97。Qwen3.7-Max 紧随其后(0.809)。GPT-5.5 的错字级 F1 达 0.905(全场最高),但因个别病类失手,综合分居中。
Kimi K2.6 成绩无效。 仅 14/80 题返回有效判定(调用超时),样本不足以定名次,置底灰显、括号内为参考值,待补测后再纳入排名。
小样本提示。 本期题库中孤平、三平尾、三仄尾、失粘各仅 1–2 例,属小样本,其分项 F1(表中对应列)波动较大,仅供参考;下一轮生成卷将定向补充这些稀有病类。
计分方法
- 七类型二元判定:每题就「平仄有误 / 用韵 / 孤平 / 三平尾 / 三仄尾 / 失粘 / 重字」逐项与引擎金标准比对,按类型计 F1(精确率与召回率的调和平均)。
- 综合 F1:七类型 F1 的宏平均——每类等权,不因某类题多而被淹没。这是唯一的排名依据。
- 错字级 F1(错字F1):细到「具体哪个字出律」的字级评分,反映定位精度;不计入综合分,仅作参考。
- 多音字不计分位:金标准(引擎保守)不为未定读的多音字定罪;模型定读后报之或漏之,两头不罚,避免多音字争议干扰分数。
- 有效题:模型返回可解析判定 JSON 的题数。不足全量者,仅在其有效题上计分并标注;14/80 判为成绩无效。
开卷数据
本页表格即完整榜单;底层分数以静态 JSON 提供,人人可下载复核——这本身就是「方法全公开」原则的一部分。
JSON 内含每个模型的 OpenRouter 调用 ID、测试日期、各项 F1 与有效题数。题目原文按「赛后开卷」原则随下一期公开可公开部分。
发布:SVOIC 诗韵中心 · 测试日期 2026-07-03 · 模型经 OpenRouter 统一调用,本机基线经本地 llama-server。