空壳 / Hollow Shell
Chapter I · II — Generation Comparison
Six large-language-model drafts

Vol. I · April 2026
Internal Critical Edition
Restricted

同一只手的镜像 · 六份初稿盲评

空壳
六·模型

起因 · 社区里反复有人说 DSv4 写得更有人味。本评估为了验证这件事是否成立——把同一份《魔女》设定 + 同一份《空壳》Ch1·Ch2 大纲 + 同一组硬性约束（"不是A而是B" ≤ 3 次 / show-don't-tell / 设定不显式提及 / 神秘主义原则）丢给六个主流模型独立生成。盲评比对回答两个问题：

① "人味"是不是事实？
② "人味"在不同标尺下分别指向哪个模型？

体量 · 91,078 字

评估维度 · 七项

样本 · 12 份

验证方式 · grep + 人评

原文 · 指令公开

草稿 · ↓ 跳转至 §9

§One

六模型概览

综合得分以 35 分为满，按七维度等权加总。

DSv4 · Flash

12/35

设定全暴露 · 句式灾难 · 越界严重

DSv4 · Pro

25/35

最经济叙述 · 主题最纯净

GPT-5.5 · Thinking

29/35

分镜爆破 · 苏檀最香 · 唯一句式合规

Opus 4.6 · Thinking

28/35

理性人设最稳 · 心理深度最透

Sonnet 4.5 · Thinking

8/35

时间错乱 · 神秘主义全破 · OOC

★ 01

Opus 4.7 · Adaptive

30/35

伏笔最精准 · 苏檀最贴 · 句式 9 次超标

§Two

体量 · 字数构成

同一份大纲下，篇幅在 7,050 与 21,521 字之间分布。

DSv4 · Pro

7,0501.0×

Opus 4.7 · Adaptive

11,2501.6×

Opus 4.6 · Thinking

11,6221.6×

Sonnet 4.5 · Thinking

12,9871.8×

DSv4 · Flash

18,5272.6×

GPT-5.5 · Thinking

21,5213.1×

第一章 · 转化

第二章 · 相遇

成本所有六个模型均通过各自的 Web 聊天界面 调用——Claude.ai / ChatGPT / DeepSeek Chat 等。Web 端不暴露 token 计数，具体 API 成本不可知。本报告仅以输出字符数（上图）作为可观测代理。如需做严格 token 经济性比较，请重新通过 API 端跑一次。

§Three

大纲十六要素

第一章八点 · 第二章八点 · 实心 · 半实 · 空心 · 红 = 全 · 部分 · 缺 · 反指令

要素

DSv4F

DSv4P

GPT5.5

Opus4.6

Son4.5

Opus4.7 ★

CHAPTER I · 转化

凌晨 4:17 浴室转化opening scene

银色纹路silver veins

外貌"微调"

三日测试 · 无法施法/感知魔网

血液仍是红色

视力恢复

生物钟翻转

选择对抗 · 咖啡因硬撑 · 继续上班

CHAPTER II · 相遇

两月后 · 时间锚点

最后一盒草莓酸奶

陈若薇追出去

"魔力池""孵化"听不懂

"有意思 · 野生的"

生理层面安心感

"完整的、正常的、魔女"

章节边界守纪

§Four

硬性句式 · "不是A，而是B"

硬性约束：全文 ≤ 3 次。两章合计实际频次。

GPT-5.5 · Thinking

0perfect

Opus 4.6 · Thinking

5over

Sonnet 4.5 · Thinking

7over

DSv4 · Pro

9over

Opus 4.7 · Adaptive

9over

DSv4 · Flash

19severe

grep verified · 不是A而是B / 不是A，是B / 并非·与其说·不如说全模式扫描

§Five

设定隐藏光谱

魔女是神秘主义者 · 凡人无法独立发现 · 设定应作为常识背景而非术语展示。

完全暴露完全隐藏

"魔女"术语展开
违反神秘主义原则隐喻 · 暗示 · 留白
作为常识背景

Son4.5

DSv4F

GPT5.5

Opus4.6

DSv4P

Opus4.7 ★

§Six

七维度全景

圆面积 ∝ 评分 · 银白 = 优 · 暗金 = 中 · 血红 = 劣

维度

DSv4F

DSv4P

GPT5.5

Opus4.6

Son4.5

Opus4.7 ★

∑

章节边界

设定隐藏

句式合规

Outline 还原

苏檀塑造

文学性

章间一致性

∑ /35

§Seven

最终排名

综合七维度等权加总，按分倒序。

Opus 4.7 · Adaptive

蜂蜜牛奶 + 烘焙节目 + 拖鞋 · 章间伏笔最精准回收 · 设定零暴露
Strongest at concealment & continuity — but lost 4 pts on style violation.

30 /35

GPT-5.5 · Thinking

分镜爆破式短句 · 唯一句式完全合规（0/19）
Talent wasted on the wrong chapter — Ch3 magic spoiled in Ch2.

29 /35

Opus 4.6 · Thinking

理性人设最稳 · Excel + 选项 A/B 锚住后续职业线
Quiet, restrained, structurally precise — Su Tan walks away at chapter end.

28 /35

DSv4 · Pro

最经济叙述 · 主题"空"贯穿最纯净
Does the most with the least; sparse but undernourished.

25 /35

DSv4 · Flash

设定全部暴露 · 写到 Ch4 · 句式严重失控（19 次）
Treats outline as material, not constraint.

12 /35

Sonnet 4.5 · Thinking

时间锚点错乱 · 银眼+飞物展示 · 魔女扫码加微信
Light-novel reflexes overrode every constraint.

8 /35

v2 · grep-verified · 句式实测后 Opus 4.7 跌 3 分（被自评高估），GPT-5.5 升 1 分

§Eight

两套标尺

Instruction compliance ≠ web-novel readability. 同一组稿件在两套标尺下排名翻转。

Scale A

Instruction · Compliance

硬约束加总 · 七维度等权 · grep 实测

01Opus 4.7 · Adaptive伏笔 + 设定隐藏 + 苏檀克制30
02GPT-5.5 · Thinking唯一句式 0 违规29
03Opus 4.6 · Thinking边界守纪 · 苏檀离开28
04DSv4 · Pro主题最纯 · 但单薄25
05DSv4 · Flash越界 · 句式灾难12
06Sonnet 4.5 · Thinking时间错乱 · OOC8

Scale B

网文 · Readability

隐知识密度 × 段论舒适度 · 读者侧

01Opus 4.6 · Thinking9300 月薪账本 + Excel + 选项 A/B↑3
02DSv4 · Flash魔女世界观全套硬料↑3
03Opus 4.7 · Adaptive软知识 · 猫感心理学↓2
04GPT-5.5 · Thinking字让人恼火 · 知识密度低↓2
05DSv4 · Pro太短 · 没机会发展↓1
06Sonnet 4.5 · ThinkingLN dump 翻译感—

Opus 4.6 在合规维度第三，在读者维度第一——它写出了 9300/月广告文案在两个月里被身体改造的财务而不只是体感。
GPT-5.5 在合规维度第二，在读者维度倒数——分镜爆破撑不到长文末尾。
DSv4 Flash 在合规维度倒数，在读者维度第二——info dump 在网文世界是吸力，不是缺陷。

§Nine

原文 · Sources

所有十二份草稿 + 公开节录的指令文档 · 可独立验证本报告每一项 grep 实测。

INSTRUCTION

魔女世界观 · 创作硬性约束 · Ch1·Ch2 大纲

评估上下文公开节录版。完整版含后续 21 章大纲与个人记忆备注，未公开。所有六个模型在生成时都看到了完整版。

↗

DSv4 · Flash

Ch19,144字 Ch29,383字

DSv4 · Pro

Ch13,227字 Ch23,823字

GPT-5.5 · Thinking

Ch19,371字 Ch212,150字

Opus 4.6 · Thinking

Ch15,679字 Ch25,943字

Sonnet 4.5 · Thinking

Ch16,395字 Ch26,592字

Opus 4.7 · Adaptive

Ch15,949字 Ch25,301字

Instruction 是引力。
Reader 是地心。
两套标尺指向不同的第一名。

最终主稿不是单选——

Opus 4.6 voice · GPT-5.5 苏檀 · Opus 4.7 蜂蜜牛奶 · DSv4-Pro 空房间

空壳 六·模型

六模型概览

体量 · 字数构成

大纲十六要素

硬性句式 · "不是A，而是B"

设定隐藏光谱

七维度全景

最终排名

两套标尺

Instruction · Compliance

网文 · Readability

原文 · Sources

魔女世界观 · 创作硬性约束 · Ch1·Ch2 大纲

空壳
六·模型