Chapter I · II — Generation Comparison
Six large-language-model drafts
Internal Critical Edition
Restricted
空壳
六·模型
起因 · 社区里反复有人说 DSv4 写得更有人味。本评估为了验证这件事是否成立——把同一份《魔女》设定 + 同一份《空壳》Ch1·Ch2 大纲 + 同一组硬性约束("不是A而是B" ≤ 3 次 / show-don't-tell / 设定不显式提及 / 神秘主义原则)丢给六个主流模型独立生成。盲评比对回答两个问题:
① "人味"是不是事实?
② "人味"在不同标尺下分别指向哪个模型?
六模型概览
综合得分以 35 分为满,按七维度等权加总。
体量 · 字数构成
同一份大纲下,篇幅在 7,050 与 21,521 字之间分布。
成本所有六个模型均通过各自的 Web 聊天界面 调用——Claude.ai / ChatGPT / DeepSeek Chat 等。Web 端不暴露 token 计数,具体 API 成本不可知。本报告仅以输出字符数(上图)作为可观测代理。如需做严格 token 经济性比较,请重新通过 API 端跑一次。
大纲十六要素
第一章八点 · 第二章八点 · 实心 · 半实 · 空心 · 红 = 全 · 部分 · 缺 · 反指令
硬性句式 · "不是A,而是B"
硬性约束:全文 ≤ 3 次。两章合计实际频次。
grep verified · 不是A而是B / 不是A,是B / 并非·与其说·不如说 全模式扫描
设定隐藏光谱
魔女是神秘主义者 · 凡人无法独立发现 · 设定应作为常识背景而非术语展示。
违反神秘主义原则 隐喻 · 暗示 · 留白
作为常识背景
七维度全景
圆面积 ∝ 评分 · 银白 = 优 · 暗金 = 中 · 血红 = 劣
最终排名
综合七维度等权加总,按分倒序。
Strongest at concealment & continuity — but lost 4 pts on style violation.
Talent wasted on the wrong chapter — Ch3 magic spoiled in Ch2.
Quiet, restrained, structurally precise — Su Tan walks away at chapter end.
Does the most with the least; sparse but undernourished.
Treats outline as material, not constraint.
Light-novel reflexes overrode every constraint.
v2 · grep-verified · 句式实测后 Opus 4.7 跌 3 分(被自评高估),GPT-5.5 升 1 分
两套标尺
Instruction compliance ≠ web-novel readability. 同一组稿件在两套标尺下排名翻转。
Instruction · Compliance
硬约束加总 · 七维度等权 · grep 实测
- 01Opus 4.7 · Adaptive伏笔 + 设定隐藏 + 苏檀克制30
- 02GPT-5.5 · Thinking唯一句式 0 违规29
- 03Opus 4.6 · Thinking边界守纪 · 苏檀离开28
- 04DSv4 · Pro主题最纯 · 但单薄25
- 05DSv4 · Flash越界 · 句式灾难12
- 06Sonnet 4.5 · Thinking时间错乱 · OOC8
网文 · Readability
隐知识密度 × 段论舒适度 · 读者侧
- 01Opus 4.6 · Thinking9300 月薪账本 + Excel + 选项 A/B↑3
- 02DSv4 · Flash魔女世界观全套硬料↑3
- 03Opus 4.7 · Adaptive软知识 · 猫感心理学↓2
- 04GPT-5.5 · Thinking字让人恼火 · 知识密度低↓2
- 05DSv4 · Pro太短 · 没机会发展↓1
- 06Sonnet 4.5 · ThinkingLN dump 翻译感—
Opus 4.6 在合规维度第三,在读者维度第一——它写出了 9300/月广告文案在两个月里被身体改造的财务而不只是体感。
GPT-5.5 在合规维度第二,在读者维度倒数——分镜爆破撑不到长文末尾。
DSv4 Flash 在合规维度倒数,在读者维度第二——info dump 在网文世界是吸力,不是缺陷。
原文 · Sources
所有十二份草稿 + 公开节录的指令文档 · 可独立验证本报告每一项 grep 实测。
魔女世界观 · 创作硬性约束 · Ch1·Ch2 大纲
评估上下文公开节录版。完整版含后续 21 章大纲与个人记忆备注,未公开。所有六个模型在生成时都看到了完整版。
Instruction 是引力。
Reader 是地心。
两套标尺指向不同的第一名。
最终主稿不是单选——
Opus 4.6 voice · GPT-5.5 苏檀 · Opus 4.7 蜂蜜牛奶 · DSv4-Pro 空房间