空壳 / Hollow Shell
Chapter I · II — Generation Comparison
Six large-language-model drafts
Vol. I · April 2026
Internal Critical Edition
Restricted
同一只手的镜像 · 六份初稿盲评

空壳
·模型

起因 · 社区里反复有人说 DSv4 写得更有人味。本评估为了验证这件事是否成立——把同一份《魔女》设定 + 同一份《空壳》Ch1·Ch2 大纲 + 同一组硬性约束("不是A而是B" ≤ 3 次 / show-don't-tell / 设定不显式提及 / 神秘主义原则)丢给六个主流模型独立生成。盲评比对回答两个问题:

① "人味"是不是事实?
② "人味"在不同标尺下分别指向哪个模型?

体量 · 91,078
评估维度 · 七项
样本 · 12 份
验证方式 · grep + 人评
原文 · 指令公开
草稿 · ↓ 跳转至 §9
§One

六模型概览

综合得分以 35 分为满,按七维度等权加总。

05
DSv4 · Flash
12/35
设定全暴露 · 句式灾难 · 越界严重
04
DSv4 · Pro
25/35
最经济叙述 · 主题最纯净
02
GPT-5.5 · Thinking
29/35
分镜爆破 · 苏檀最香 · 唯一句式合规
03
Opus 4.6 · Thinking
28/35
理性人设最稳 · 心理深度最透
06
Sonnet 4.5 · Thinking
8/35
时间错乱 · 神秘主义全破 · OOC
★ 01
Opus 4.7 · Adaptive
30/35
伏笔最精准 · 苏檀最贴 · 句式 9 次超标
§Two

体量 · 字数构成

同一份大纲下,篇幅在 7,050 与 21,521 字之间分布。

DSv4 · Pro
7,0501.0×
Opus 4.7 · Adaptive
11,2501.6×
Opus 4.6 · Thinking
11,6221.6×
Sonnet 4.5 · Thinking
12,9871.8×
DSv4 · Flash
18,5272.6×
GPT-5.5 · Thinking
21,5213.1×
第一章 · 转化
第二章 · 相遇

成本所有六个模型均通过各自的 Web 聊天界面 调用——Claude.ai / ChatGPT / DeepSeek Chat 等。Web 端不暴露 token 计数,具体 API 成本不可知。本报告仅以输出字符数(上图)作为可观测代理。如需做严格 token 经济性比较,请重新通过 API 端跑一次。

§Three

大纲十六要素

第一章八点 · 第二章八点 · 实心 · 半实 · 空心 · 红 = 全 · 部分 · 缺 · 反指令

要素
DSv4F
DSv4P
GPT5.5
Opus4.6
Son4.5
Opus4.7 ★
CHAPTER I · 转化
凌晨 4:17 浴室转化opening scene
银色纹路silver veins
外貌"微调"
三日测试 · 无法施法/感知魔网
血液仍是红色
视力恢复
生物钟翻转
选择对抗 · 咖啡因硬撑 · 继续上班
CHAPTER II · 相遇
两月后 · 时间锚点
最后一盒草莓酸奶
陈若薇追出去
"魔力池""孵化"听不懂
"有意思 · 野生的"
生理层面安心感
"完整的、正常的、魔女"
章节边界守纪
§Four

硬性句式 · "不是A,而是B"

硬性约束:全文 ≤ 3 次。两章合计实际频次。

GPT-5.5 · Thinking
0perfect
Opus 4.6 · Thinking
5over
Sonnet 4.5 · Thinking
7over
DSv4 · Pro
9over
Opus 4.7 · Adaptive
9over
DSv4 · Flash
19severe

grep verified · 不是A而是B / 不是A,是B / 并非·与其说·不如说 全模式扫描

§Five

设定隐藏光谱

魔女是神秘主义者 · 凡人无法独立发现 · 设定应作为常识背景而非术语展示。

完全暴露 完全隐藏
"魔女"术语展开
违反神秘主义原则
隐喻 · 暗示 · 留白
作为常识背景
Son4.5
DSv4F
GPT5.5
Opus4.6
DSv4P
Opus4.7 ★
§Six

七维度全景

圆面积 ∝ 评分 · 银白 = 优 · 暗金 = 中 · 血红 = 劣

维度
DSv4F
DSv4P
GPT5.5
Opus4.6
Son4.5
Opus4.7 ★
章节边界
17
设定隐藏
18
句式合规
10
Outline 还原
24
苏檀塑造
20
文学性
23
章间一致性
20
∑ /35
12
25
29
28
8
30
§Seven

最终排名

综合七维度等权加总,按分倒序。

01
Opus 4.7 · Adaptive
蜂蜜牛奶 + 烘焙节目 + 拖鞋 · 章间伏笔最精准回收 · 设定零暴露
Strongest at concealment & continuity — but lost 4 pts on style violation.
30 /35
02
GPT-5.5 · Thinking
分镜爆破式短句 · 唯一句式完全合规(0/19)
Talent wasted on the wrong chapter — Ch3 magic spoiled in Ch2.
29 /35
03
Opus 4.6 · Thinking
理性人设最稳 · Excel + 选项 A/B 锚住后续职业线
Quiet, restrained, structurally precise — Su Tan walks away at chapter end.
28 /35
04
DSv4 · Pro
最经济叙述 · 主题"空"贯穿最纯净
Does the most with the least; sparse but undernourished.
25 /35
05
DSv4 · Flash
设定全部暴露 · 写到 Ch4 · 句式严重失控(19 次)
Treats outline as material, not constraint.
12 /35
06
Sonnet 4.5 · Thinking
时间锚点错乱 · 银眼+飞物展示 · 魔女扫码加微信
Light-novel reflexes overrode every constraint.
8 /35

v2 · grep-verified · 句式实测后 Opus 4.7 跌 3 分(被自评高估),GPT-5.5 升 1 分

§Eight

两套标尺

Instruction compliance ≠ web-novel readability. 同一组稿件在两套标尺下排名翻转。

Scale A

Instruction · Compliance

硬约束加总 · 七维度等权 · grep 实测

  1. 01Opus 4.7 · Adaptive伏笔 + 设定隐藏 + 苏檀克制30
  2. 02GPT-5.5 · Thinking唯一句式 0 违规29
  3. 03Opus 4.6 · Thinking边界守纪 · 苏檀离开28
  4. 04DSv4 · Pro主题最纯 · 但单薄25
  5. 05DSv4 · Flash越界 · 句式灾难12
  6. 06Sonnet 4.5 · Thinking时间错乱 · OOC8
Scale B

网文 · Readability

隐知识密度 × 段论舒适度 · 读者侧

  1. 01Opus 4.6 · Thinking9300 月薪账本 + Excel + 选项 A/B↑3
  2. 02DSv4 · Flash魔女世界观全套硬料↑3
  3. 03Opus 4.7 · Adaptive软知识 · 猫感心理学↓2
  4. 04GPT-5.5 · Thinking字让人恼火 · 知识密度低↓2
  5. 05DSv4 · Pro太短 · 没机会发展↓1
  6. 06Sonnet 4.5 · ThinkingLN dump 翻译感

Opus 4.6 在合规维度第三,在读者维度第一——它写出了 9300/月广告文案在两个月里被身体改造的财务而不只是体感
GPT-5.5 在合规维度第二,在读者维度倒数——分镜爆破撑不到长文末尾。
DSv4 Flash 在合规维度倒数,在读者维度第二——info dump 在网文世界是吸力,不是缺陷。

§Nine

原文 · Sources

所有十二份草稿 + 公开节录的指令文档 · 可独立验证本报告每一项 grep 实测。

INSTRUCTION

魔女世界观 · 创作硬性约束 · Ch1·Ch2 大纲

评估上下文公开节录版。完整版含后续 21 章大纲与个人记忆备注,未公开。所有六个模型在生成时都看到了完整版。

DSv4 · Flash
Ch19,144字 Ch29,383字
DSv4 · Pro
Ch13,227字 Ch23,823字
GPT-5.5 · Thinking
Ch19,371字 Ch212,150字
Opus 4.6 · Thinking
Ch15,679字 Ch25,943字
Sonnet 4.5 · Thinking
Ch16,395字 Ch26,592字
Opus 4.7 · Adaptive
Ch15,949字 Ch25,301字

Instruction 是引力
Reader 是地心
两套标尺指向不同的第一名

最终主稿不是单选——

Opus 4.6 voice · GPT-5.5 苏檀 · Opus 4.7 蜂蜜牛奶 · DSv4-Pro 空房间