● CONFIDENTIAL INTERNAL ONLY 2026.04

人工生产力 / Artificial Productivity

AIGG 平台
需求规范

AIGG（AI-Generated Game）平台的工程需求文档。本文档明确了平台的核心抽象、玩法覆盖、AI 角色、硬件层、软件栈、互联协议与商业边界。每一条需求都包含目标、衡量标准、与不要做什么——三件齐才算需求，少任一件均为愿景。

本文档与《AIGG 平台产品愿景》互为印证——愿景文档讲"为什么做、做什么、为谁做"，本文档讲"怎么做、做到什么标准"。两份文档配合使用——愿景文档对齐方向，本文档对齐细节。

需求总数

141条

P0 / P1 / P2

100 / 36 / 5

需求簇

14类

未决策项

18个

目录 / TABLE OF CONTENTS 10 章节 / 141 条需求

00 用户场景与体验愿景所有需求的真正起点 / 家庭 · 游乐场 · 户外 · 商业空间 2 01 核心抽象与设计哲学 Role × Activity / 双引擎 / 三层 IR 3 02 活动分类 · 6 Class 玩法覆盖与产业对接 5 03 AI 角色 · 7 个一级分类 Player / Opponent / Helper / Director / Narrator / Persona / Author 8 04 物理层硬件 4 层硬件 / 8 类 Chiplet / 视觉硬件谱系 / 周边玩具家族 / 蜂窝接入 11 05 AI 模型与推理 6 类模型 / 视觉 AI 完整栈 / 端云协同 14 06 软件系统架构 5 子系统 / 五类互联协议 17 07 完整需求清单 141 条原子需求 20 08 未决策事项 18 个需要拍板的判断 26 09 学术与产业依据引用文献清单 28

§ 00

用户场景与体验愿景 User Scenarios & Experiential Vision

需求簇 ⊙ · 11 条 · 起点

这一章是所有后续需求的真正起点——架构、硬件、软件、协议都在为这里描述的体验服务。AIGG 的本质命题是：用 AI 与互联，把原本孤立、不能动、各自为政的玩具/道具/玩偶/装置组织成一个有机的整体，让物理世界变得足够好玩，足以与屏幕争夺孩子（和成人）的时间。

⊙.1体验愿景 · 物理与屏幕的协奏

过去十五年，娱乐产业的重心确实在向屏幕迁移——这不是因为屏幕"夺取"了什么，而是因为屏幕同时获得了表现力、便携性、网络化、可迭代四个根本能力。全球游戏市场 2025 年规模 1970 亿美元（移动 55% / PC 22% / 主机 23%），中国移动游戏 2570 亿元——这是真实的产业繁荣，AIGG 不否认、不对抗、也不试图夺取。

但与此同时，物理玩具没有跟上时代——它既不够智能（玩三天就腻），也是孤立的（玩偶不能和卡片对话、奶奶家的玩偶不认识你家的玩偶）。 AIGG 的核心命题是让物理玩具补上 AI 时代应得的能力升级，与屏幕娱乐形成协奏而非替代关系。

屏幕擅长的——千变万化的视觉表现力、便携触手可达、网络化社交、持续迭代运营。这是数字娱乐独有的强项。

物理擅长的——具身认知（身体参与是一种学习）、自由游戏（执行功能根基）、真实物件依恋（80% 儿童形成、66% 保留 20+ 年）、共同在场（面对面无可替代）、多感官记忆、物理仪式感、跨年龄/能力/网络/语言的普适性。这些价值独立于 AIGG 而存在，跨越人生 80 年（从婴儿手中拨浪鼓到老人怀中 PARO 海豹），跨越 175 年玩具产业史，从未消失。

AIGG 拥抱屏幕也拥抱物理——家长 APP / 模拟器 / 玩偶 LCD 表情屏 / 远程视频陪伴 / AR 头盔等都是 AIGG 体验栈的一部分。AIGG 的立场是：屏幕是表现力之一，不是表现力的全部。

要让物理玩具在 AI 时代获得能力升级，需要智能 × 互联的乘积效应——智能拉升单点可玩性（NUI 自然交互革命 + 游戏性表现力七维度跃迁），互联拉升整体涌现（玩具越多体验越好的正向网络效应）。两者必须同时具备：没有智能，互联只是连接傻物件；没有互联，智能只是孤独的聪明玩偶。

⊙.2四大核心体验诉求 · 全人群覆盖

物理世界游戏的四个独有价值——这些价值独立于 AIGG 而存在，是 AIGG 之所以值得做的前提。它们贯穿人生 80 年，跨越 175 年的玩具产业史。每一条都不是"对屏幕的反对"，而是"物理形态本身赋予的不可替代价值"：

VALUE 01

具身参与的真实感

Embodied Participation

触觉

空间

运动

认知科学过去三十年最重要的发现之一是具身认知（Embodied Cognition）——身体的感知、动作、空间体验深度参与思维过程。触觉学习（MDPI 2021）、积木 vs 视频对比（AAP 2018）等研究都证实：身体真实参与的学习效果显著优于纯视听通道。这是物理形态独有的、屏幕无法复刻的能力——从婴儿抓握物体到老人触摸 PARO 海豹都受益。

VALUE 02

真实物件的占有感

Tangible Ownership

依恋

传承

Winnicott 1953 年提出的过渡客体理论：80% 儿童形成深度物体依恋，66% 保留 20+ 年。最新研究（PMC 2024）证实：成年人接触童年依恋物时心率变异性升高、皮质醇下降——这是身体级别的真实生理反应。泡泡玛特年销 200+ 亿、Labubu 海外现象级——证明成年人对实体物件的情感投入也是巨大的。物理物件还会被时间打磨产生"传记性"，可跨代传承——数字物件没有这些属性。

VALUE 03

共同在场的连接

Co-located Connection

家人

代际

关系

面对面的真实社交是人类生物学层面的需求——眼神交汇、生理同步、肢体距离传递的安全感。 2025 全球桌游 160 亿美元 / CAGR 10%，48% 玩家因家庭游戏夜购买；StartPlaying 2025：78% Gen Z 通过 RPG 结交亲密朋友。桌游研究还证明：物理游戏是少数能让爷爷奶奶 / 父母 / 孩子作为平等参与者共玩的场景。这种跨代纽带是数字娱乐难以复刻的。

VALUE 04

跨年龄的普适性

Universal Accessibility

无门槛

鲁棒

长寿

物理玩耍有一个被低估的优势：它对参与者的能力门槛极低，跨年龄、跨能力、跨网络、跨文化都能进行。 18 个月婴儿到 80 岁老人都能玩；认知障碍老人对物理物体反应保留得最久（PARO 临床研究）；野外/停电/无网场景仍能工作；不需要识字、不挑使用者技术熟练度。同一只毛绒玩偶可以陪伴一个人从 1 岁到 80 岁——这种生命周期级别的陪伴是数字娱乐做不到的。

全人群分析 · 不同年龄段的不同价值

AIGG 的产品对象不只是儿童。物理游戏的魅力在不同人群中以不同方式显现：

人群	核心价值	关键学术支撑	对应产品形态
儿童 (0-12 岁)	大脑发育的根基——执行功能、亲社会行为、语言习得、自我调节	AAP《Power of Play》2018/2025、WHO 屏幕指南、具身认知 MDPI 2021	主战场·基座层精灵 + 情感层旗舰
青少年 (13-22 岁)	社交与身份建构——TTRPG 友谊、潮玩收藏、心理重置	StartPlaying 2025：78% Gen Z 通过 RPG 结交挚友、90% 用 RPG 心理重置	桌游 / 剧本杀 / 实体卡牌 / 潮玩
成人 (23-55 岁)	数字疲劳的减压锚点——情感陪伴、压力释放、家庭游戏夜	桌游 160 亿美元 / CAGR 10%、48% 因家庭游戏夜购买、PMC 2024 生理研究	家庭桌游 + 收藏品 + 减压陪伴玩偶
老人 (55+ 岁)	认知健康与孤独干预——情绪改善、社交激发、记忆刺激	PARO RCT 多项临床研究、Banks 2008（AIBO ≈ 真狗效果）、AMSTEL 孤独研究	陪伴机器人 / 认知干预 / 跨代桌游

这个分析对 AIGG 平台设计有三个直接含义：

产品矩阵不应被单一人群锁定——基座层精灵主打儿童 / 情感层旗舰跨儿童到成人 / 陪伴机器人面向银发人群
活动 IR 必须支持全年龄段——同一活动框架可适配不同年龄段（家庭桌游能让全家共玩）
合规与安全分级——儿童产品需要 COPPA 级护栏，老年人产品需要适老化设计、紧急响应

⊙.3站在巨人肩膀上 · 产业先驱对物理游戏的思考

AIGG 不是凭空发明物理游戏的设计哲学，而是站在 40 年产业积累之上做集成与突破。下面是我们调研后认为最值得继承、也最值得引以为戒的几家公司的核心思考——既包括它们的洞察，也包括它们的失败教训。

横山悟井（Gunpei Yokoi · 任天堂）· "枯れた技術の水平思考"

任天堂 Game & Watch 与 Game Boy 的发明者，提出影响整个产业 40 年的设计哲学："用枯萎的技术做横向思考"——不追求最前沿的硬件，用已经成熟、便宜、可靠的技术做不寻常的组合。这条路径让任天堂在硬件竞赛中不与 Sony / 微软正面竞争，开辟"蓝海"。

AIGG 不应试图做"算力最强的玩偶"——情感层用 ESP32-S3 而不是 Jetson Orin，不是技术降级，是设计哲学的胜利。把 NFC（30 年老技术）和大模型（最新技术）组合起来就是横山悟井哲学的当代版本。

岩田聪（Satoru Iwata · 任天堂）· "扩大游戏人口"

2005 年 GDC 演讲："心里是一个游戏玩家"。Wii 的设计目标是把不玩游戏的人变成游戏玩家——爷爷奶奶、家庭主妇、所有被传统游戏机吓退的人。Wii 遥控器叫"remote"不叫"controller"——Iwata 坚持这个细节，因为电视遥控器是所有家庭成员都用过的器物。

AIGG 玩偶的目标用户不是"游戏发烧友的孩子"，是所有家庭成员——5 岁孩子、8 岁孩子、爸爸妈妈、爷爷奶奶都能 5 分钟上手。这就是为什么 AI 主机要做成"玩偶"而不是"游戏机"——玩偶是所有家庭成员都熟悉的器物。Wii Sports 卖了 8000 万套不是因为它"好玩"，是因为它"任何人都能上手"。

宫本茂（Shigeru Miyamoto · 任天堂）· "客厅中心的连接器"

Wii 的设计哲学：游戏机不是"另一台电器"，是"把家人聚在客厅的工具"。所以 Wii 的物理外形是"3 张 DVD 盒大小"——可以塞在电视旁边任何角落，不打扰客厅美感。

AI 主机玩偶的物理设计要服从于"它要待在客厅而不被嫌弃"——比如形态足够可爱让妈妈愿意放在沙发上、声音不能太机械化、灯光要柔和。这是审美问题但和工程同等重要。BP 的"毛绒+芯片"形态选择正是这个哲学的体现。

LEGO · "Fluid Play 流动游戏" 哲学

从 1998 年 Mindstorms 开始，LEGO 探索物理与数字结合的游戏方式 27 年。2020 年 LEGO Super Mario 与任天堂联合推出，2026 年发布 Smart Brick——传感器嵌入积木块，"主要互动仍在物理搭建，APP 只是辅助"。LEGO CEO 一句话："家长越来越担心屏幕时间，所以我们的 Smart Brick 设计原则是物理操作为主、APP 为辅"。

AIGG 的核心也必须是"物理优先 · 数字辅助"——APP 不能成为玩耍的中心。如果用户大部分时间在看屏幕，那 AIGG 就败给了手游。BP 中"反斗城/孩子王"的渠道选择正是这个判断——物理玩具的销售场景。LEGO 用 27 年告诉我们：物理为主可以做大，做成第二大玩具公司。

Disney Imagineering · "环境叙事"与 MagicBand

迪士尼 1955 年开始的"Imagineer"传统——所有细节都为环境叙事 (environmental storytelling) 服务。1988 年发明的 4 层沉浸细节理论：远景视觉 → 中景空间 → 近景质感 → 微观细节。MagicBand（2013）和 MagicBand+（2022）把这个哲学物联网化——一只 RFID + BLE 手环让整个园区成为响应你的活体：进园自动识别、夜晚烟花表演时手环按节奏发光、Star Wars 区域寻宝任务由手环引导。

MagicBand 的本质不是"硬件产品"，而是"让物理空间成为响应你的活体"的协议网络——所有园区设备都听 MagicBand 的呼吸。这正是 AIGG 在家庭场景要做的事：主机玩偶 + NFC 卡 + 小车 + 灯具 = 家变成响应你的活体。这是 Disney 用 80 亿美元和 30 年建造的认知，AIGG 应该完全继承。

Anki / Cozmo · Pixar 灵感的"情感引擎"

Anki 的 Cozmo（2016, $180）是Pixar 动画师 Carlos Baena 加入设计的产物。核心哲学："不要追求完美，要追求 personality"——刻意设计动作的"自然不完美"让玩具显得活着。Cozmo 在 2017 年成为亚马逊销量第一的玩具。

Anki 在 2019 年破产——融资轮意外失败。$180 对玩具仍然太贵；技术再好但变不成可持续的商业模式。Cozmo 的失败告诉 AIGG：技术领先 + 情感设计极致都不够，必须有可持续的商业引擎——这也是为什么 BP 的"卡带经济 + 订阅"组合至关重要。

Embodied / Moxie · 社交情感学习的"animate companion"

iRobot 前 CTO Paolo Pirjanian 创立的 Embodied（$799 Moxie）专做儿童社交情感发展。哲学："不是游戏机，是 animate companion（活的伙伴）"。每周一个生活技能主题（善良、友谊、共情、尊重），通过日常互动培养。Moxie 用 Yves Béhar 设计、Pixar 动画思路。

Embodied 在 2024 年底突然停运——孩子们对 Moxie 形成情感依赖后产品关停，造成大量家长心碎反馈。这是 AI 玩具行业的标志性悲剧事件。教训：用户与玩偶的情感连接是产品最强的护城河，但也是最重的责任——AIGG 的服务连续性必须设计为"即使公司倒闭，玩偶人格也能在本地继续运作"。这要求 Persona 数据可导出、本地大模型兜底、紧急关停 plan。

Toys-to-Life 谱系（Skylanders / Disney Infinity / Amiibo / LEGO Dimensions）· 物理-数字桥

2011 年 Activision 的 Skylanders 开创"toys-to-life"模式——NFC 玩偶放上底座激活游戏角色，仅 Skylanders 4 年内卖出 30 亿美元。Disney Infinity（2013-2016）跨 IP 整合（漫威、星战、皮克斯）。任天堂 Amiibo（2014-至今）—— 不绑死单一游戏，跨多游戏使用。LEGO Dimensions（2015-2017）—— 乐高积木 + NFC 底座 + 屏幕游戏。

"主机+周边玩偶"这个商业模型有 15 年成熟经验，不是 AIGG 发明。AIGG 要继承这套模式，但有 4 个突破：① 主机不是屏幕游戏机，是物理玩偶 ② 周边不局限于"角色雕像"，而是各种道具 ③ 不依赖 IP 授权也能玩（自有 SKU + 第三方）④ 周边和玩偶组成有机整体，不只是"unlock 关卡"。Amiibo 模式（不绑死单游戏）尤其值得学习——AIGG 的卡带可以跨多个活动使用。

当代中国 AI 玩具创业潮 · BubblePal / FoloToy / 跃然创新

2024-2025 年中国 AI 玩具创业爆发——BubblePal（¥399）半年销量 2.5-5 万台，单平台销售额超 ¥2000 万。FoloToy 2025 一季度销量已接近 2024 全年。这些早期创业者验证了"低价 + 大模型 + 情感陪伴"路径在中国市场可行。

BubblePal 等已经验证了 ¥399 价位的 AI 玩偶有真实需求。但它们的天花板是单一玩偶的对话——没有解决"多玩具协同"的核心问题。AIGG 的差异化不是做又一只 BubblePal，而是做能让 BubblePal 这类玩偶都能加入的"主机 + 协议网络"——做玩具的 iOS而不是又一只玩具。

整合 · 8 家公司给 AIGG 的核心启发

公司 / 人	核心思考	AIGG 继承
横山悟井 · Nintendo	枯萎技术的横向思考	NFC 老技术 × 大模型新技术的组合
岩田聪 · Nintendo	扩大游戏人口	主机做成玩偶让所有家庭成员上手
宫本茂 · Nintendo	客厅中心的连接器	毛绒外形 + 柔和声光 = 客厅审美
LEGO	Fluid Play · 物理优先	APP 为辅·物理操作是中心
Disney Imagineering	环境叙事 + MagicBand 协议网络	整个家变成响应你的活体
Anki / Cozmo	Pixar 情感引擎 · 但商业模式不可持续	情感设计极致化 + 卡带商业引擎
Embodied / Moxie	animate companion · 但情感依赖责任重	本地化兜底 + 数据可导出·关停 plan
Skylanders / Amiibo	toys-to-life 跨游戏复用	卡带跨多活动 · 不锁定单 IP

这 8 家公司各自做对了一件事，但没有任何一家把所有事都做对：

Nintendo 做对了"扩大人口 + 客厅中心"，但没做"物理玩具+大模型"
LEGO 做对了"物理优先"，但没做"AI 智能"
Disney 做对了"协议网络"，但只在乐园做不在家庭
Anki / Embodied 做对了"AI + 情感"，但商业模式扛不住
Skylanders / Amiibo 做对了"toys-to-life"，但仅是屏幕游戏的附属
BubblePal 做对了"低价 AI 陪伴"，但没解决多设备协同

AIGG 的机会是把这 8 件事在一个产品矩阵里同时做对——这是 AI 玩具行业的"集大成时刻"。这也是为什么 BP 中"主机+卡带+雾节点+多设备协同"的整体设计是真正的差异化，不是单点功能。

⊙.4双重张力 · "智能"与"互联"的协奏

下图说明 AIGG 究竟在解决什么问题——传统玩具既笨又孤立，每只是预设几句话的死东西，相互之间还互不通信；AIGG 通过大模型让每只玩偶变聪明 + 互联协议让所有物件形成有机协作网络，并将体验延伸到家庭之外。智能拉升单点上限，互联拉升整体涌现，两者乘积才是真正的护城河：

⊙.5自然交互革命 · 从控制器到自然行为

AI 给物理世界带来的第一个具体革命是自然交互革命（NUI · Natural User Interface）。把它放进人机交互演进史的位置上看：打孔卡 → 命令行 → 图形界面（鼠标键盘）→ 触控屏 → 自然交互—— 每一代都朝着"更直觉、更接近人类自然行为"的方向。AI 让我们正式进入第五代范式。

NUI 的核心是多模态自然交互——同时使用语音、视觉、触觉、手势、姿态、表情、空间位置等多种通道，与人类日常和真实世界互动的方式一致。微软、Google、Apple、Meta 都在押注这个方向；ScienceDirect 等学术综述把它称为 "从 WIMP 范式到 NUI 范式的根本性架构变迁"。

对线下娱乐的革命性意义

传统玩具的交互是"按按钮"或"扳开关"，电子玩具是"看屏幕点屏幕"。AIGG 让玩具可以同时听你说话、看你的脸、感受你的触摸、识别你的手势、注意你的位置，然后用语音、表情、动作、灯光多通道自然回应。这是物理玩具历史上从未发生过的交互范式跃迁——从"操作工具"变成"自然伙伴"。

NUI 的跨人群普适性尤其重要：

儿童——3 岁孩子可以直接对玩偶说话，不需要先学会用 APP
老人——视力下降的老人可以用语音、行动不便的可以用手势——不需要学复杂遥控器
认知障碍患者——只用触觉就能与玩偶交互，触觉是认知障碍患者最后保留的交互模态
视觉障碍者——语音和触觉自然适合视障用户
所有人——不需要先成为"用户"才能玩

多模态融合的技术意义

NUI 的真正威力不是"支持多种交互方式"，是多通道协同理解—— 用户说"看这个"+ 同时手指着 + 同时看着某物——AI 把语音 + 手势 + 视线方向融合成单一意图。这是单通道 AI 永远做不到的，只有真正的多模态系统才能实现。

⊙.6游戏性表现力跃迁 · 从预设到涌现的七维度提升

"AI 让玩具更智能"是含糊的描述。具体地说，AI 在游戏性的多个维度同时提升了物理玩具的表现力—— 这种全维度提升以前只发生过一次，就是从单机游戏到联机游戏的跃迁。

下面这 7 个维度都是可被工程实现、可被量化衡量的具体能力，不是空泛的修辞：

维度	从（传统玩具）	到（AIGG）	产业证据
1. 动态生成内容	固定剧情对话	每次互动基于上下文重新生成	GDC 2025: 1/3 开发者使用生成 AI；Steam 20%+ 游戏使用生成 AI 资产，年增 700%
2. 实时反馈丰富性	预录音效（"刺激-反应"）	语义级实时反馈（"理解-回应"）	Justice Online Mobile NPC 实时对话；NVIDIA ACE PUBG Ally
3. 自适应难度节奏	难度固定	实时分析玩家技能/情绪/参与度，动态调整	Candy Crush AI 实时调整千万关卡；No Man's Sky 自适应世界
4. 声光电多通道协同	灯光/声音/动作各自独立	多输出通道协同表达情感和情境	Anki Cozmo Pixar 动画师 emotion engine
5. 连续人格	预设台词集合	持续记忆 + 偏好学习 + 性格演化	Monolith Nemesis System；NetEase 长期记忆 NPC
6. 灵活性与张力	剧本固定	同框架每次产生不同紧张感、转折、高潮	D&D（78% Gen Z 通过 RPG 结交挚友的灵活性根源）
7. 跨设备协奏	每个玩具独立	多玩偶/卡片/灯光/音响整体协奏一场表演	Disney MagicBand+ 全园区协奏（30 年 80 亿美元验证）

这 7 个维度合起来构成的游戏性表现力跃迁，让物理玩具从"会发声的塑料" 进化为"有性格、会即兴、能与你共同创造体验的伙伴"。每个维度都对应平台需要做的具体工程能力——见后续 §02 双引擎、§03 AI 角色、§05 AI 模型等章节的展开。

⊙.7拥抱屏幕的设计立场

AIGG 不是反屏幕——屏幕娱乐的成功是真实且合理的。屏幕带来的千变万化的视觉表现力是物理世界永远无法等价复刻的——飞龙、星空、变形怪兽、即时切换的场景。 AIGG 不仅不否认这种价值，而且主动拥抱屏幕作为体验栈的一部分。

具体而言，AIGG 的体验栈中以下部分是屏幕：

家长 APP——父母监控、配置、付费、获取报告的核心入口
创作者 Web 工具——PGC/UGC 创作活动、设计 Persona
模拟器——AI Author 工作场所、Beta 测试场
玩偶 LCD 表情屏（情感层旗舰款）—— Pixar 启发的丰富表情
轮式机器人大屏—— B 端场景必备显示能力
远程视频陪伴—— 家长出差时的视觉连接
AR 头盔/眼镜（P2 / 未来）—— Persona 的视觉化身

AIGG 的核心立场：屏幕是表现力之一，不是表现力的全部。平台架构必须既支持屏幕作为输出通道，又确保物理形态承担"主战场"——不让 AIGG 退化为"又一个屏幕 APP"。

2025 年全球玩具行业已经把"phygital play"（物理-数字融合游戏）作为产业共识—— AR 玩具市场规模 2025 年 37 亿美元，年增 14.5%。LEGO Super Mario、PlayShifu Tacto、HOLOBRITE Pixie Lantern 都是"物理 + 屏幕协同"的成功案例。 LEGO 在 2026 年发布的 Smart Brick 明确说："主要互动仍在物理搭建，屏幕只是辅助"。 AIGG 的定位是这个共识的最完整执行者——把"物理 × 屏幕 × AI × 互联"四者编织成一张网。

⊙.8四大场景 · 用户在哪里玩

AIGG 必须在四类典型场景里都跑通——每个场景对硬件、互联、商业模式都有不同要求：

SC-A · 家庭

日常家庭娱乐 · 主战场

客厅、儿童房、餐桌、睡前床头。多个玩偶 + 多张卡 + 多个道具 + 家长手机 + 智能家居灯光。2-6 人同处一室，5-30 分钟游戏单局或长线陪伴。家庭 Wi-Fi + 雾节点。

主流 / 走量 SKU

SC-B · 户外

出门携带 · 旅途与亲友家

车上、奶奶家、旅游路上、餐厅等待。没有家庭 Wi-Fi，靠蜂窝模块（LTE-M / Cat-1bis / RedCap）+ 4G 流量。轻量设备，长续航优先。儿童在陌生环境的情感陪伴诉求强。

蜂窝模块必装 SKU

SC-C · 游乐场

商业娱乐空间 · IP 沉浸式

主题乐园、室内儿童乐园（POP LAND / Hello Kitty 度假村 / 乐高乐园）、亲子餐厅、IP 快闪店。大型双足/轮式机器人作为场景固定演员，玩家随身携带个人玩偶可与现场设备联动，离场时进度同步回家。Wi-Fi 6 + 蓝牙密集组网。

B2B 大额合同

SC-D · 商业

公共空间触点 · 品牌曝光与转化

商超 / 玩具店 / 博物馆 / 学校 / 养老社区。轮式机器人作为 IP 形象大使 + 现场试玩入口。试玩 5 分钟体验完整 → 关注订阅 → 购买回家。这是把"不知道 AIGG 是什么"的人变成用户的关键漏斗。

B2B2C 转化漏斗

⊙.9家庭场景详解 · 主战场的全貌

家庭场景是 AIGG 的主战场——80% 的用户时长会发生在这里。下面是一个典型家庭的设备拓扑：

角色	典型设备	数量	职责
核心 AI 主机	情感层玩偶（¥899-1999）或场景层小机器人	1 台/家	家庭 AI 大脑、雾节点、Persona 主角色
个人 AI 玩偶	基座层精灵（¥199-399）	每个家庭成员 1-3 个	个人陪伴、IP 联名收藏、便携
NFC 道具卡	IP 联名卡牌、剧情卡、场景卡、角色卡	10-100 张/家	触发活动、解锁内容、角色扮演
有源道具	BLE 机动小车、声光灯、抢答器、小机器	3-10 件/家	主动参与游戏的"演员"
游戏场地件	桌游棋盘、地图、场景套装、立体玩具屋	2-5 套/家	构造游戏空间
家长设备	手机 APP（家长端）+ 平板（孩子端可选）	1-2 台	监管、配置、远程参与、报告
家庭智能设备	智能灯、音响、电视（可选联动）	已有/可选	沉浸感扩展（关灯进入故事模式）

典型一晚的家庭使用画像（基于 BP "家庭游戏世界"愿景）：

晚上 7:00 · 餐桌 · 妈妈打开核心 AI 主机，玩偶从充电座苏醒。爸爸把白天买的"魔法森林"NFC 套装卡放到桌上，玩偶识别后说："今晚我们去魔法森林吗？"5 岁的孩子尖叫着把"小狐狸"角色卡放过去，玩偶变身小狐狸的声线。

7:15 · 客厅 · 家庭桌游开始。AI 玩偶担任 Director（裁判 + 主持人），桌上的 BLE 抢答器同步亮灯。爸爸的玩偶今天扮演 Player（凑数玩家），妈妈的玩偶扮演 Narrator（讲故事）。客厅灯光配合剧情自动调节。

8:30 · 儿童房 · 桌游结束，孩子带着自己的小玩偶进卧室。玩偶从"裁判模式"切换到"陪伴模式"。孩子讲今天幼儿园发生的事，玩偶记下来——这进入 L2 事件记忆。

9:00 · 床头 · 玩偶切换到"睡前故事"——根据孩子今天的情绪即兴生成故事，主角是孩子收藏的卡片角色。家长 APP 收到一份温柔的"今日成长简报"。

第二天清晨 · 玩偶离线时云端继续生成"它做了个梦"的内容。孩子起床，玩偶说"我刚才梦到你养的小狐狸学会跳舞了！"——这是离线推进让陪伴变魔法的瞬间。

⊙.10游乐场场景详解 · IP 沉浸式娱乐

游乐场场景是 BP 中"城市游戏世界"的对应——把 AIGG 能力延伸到家庭之外的商业娱乐空间。这是市场已经验证过的赛道：北京环球影城"中国神话"AR 区域吸引外籍游客占比 30%；TeamLab 无界美术馆复购率 35%、客单价 500+；上海迪士尼"AI 角色互动"项目让游客平均停留延长至 9 小时。

子场景	设备形态	关键体验	商业模式
主题乐园	大型双足人形机器人作为 IP 形象 / 全场景固定 AI 角色 / 沉浸式互动装置	个人玩偶进入园区与场景中的 AI 联动；卡片在不同园区有不同效果；离场时获得专属"今日冒险"故事	B2B 设备销售/租赁 + 衍生品分成
室内儿童乐园	大量轮式中型机器人 + 桌面 AI 主机阵列 + 互动地面投影	儿童入场获得手环/卡片，参与多个活动获得勋章；和家里玩偶进度同步	场地分账 + 卡牌销售
IP 主题快闪店	1-2 台旗舰机器人 + 大屏 + IP 联名互动桌	到店激活专属内容；现场抓拍合影；扫码一键购买回家版	IP 方付费 + 转化销售
亲子餐厅 / 咖啡馆	桌面型小型 AI 主机 + 桌游道具套装	等待上菜的 15 分钟玩一局桌游；AI 当裁判和故事讲述者	设备租赁 + 桌游分账
剧本杀 / 密室	多个 AI 玩偶作为 NPC + 场景中的物理道具识别	AI 玩偶作为 Narrator 推进剧情，每次体验不同——AI 让剧情可重玩	场地合作 + 剧本订阅

AIGG 的真正护城河之一：家庭设备和游乐场设备共享同一套 Persona 身份系统。"小宝"在你家是床头陪伴，去乐园后变身为乐园里的"向导"和你一起探险，回家后讲述"我们今天的冒险"。这是迪士尼/环球影城都做不到的——它们的 IP 没有跟着你回家。AIGG 的玩偶把家庭和商业场景之间的鸿沟填平。

⊙.11户外与商业空间 · 出门陪伴 + 品牌触点

SC-B 户外场景——奶奶家、车上、旅游路上、餐厅。这是被市面上 AI 玩具产品普遍忽视但实际很重要的场景：

儿童在陌生环境的情感诉求强烈——出门时孩子最焦虑，反而是最需要陪伴玩偶的时候。但这要求蜂窝模块或本地能力，不能依赖家庭 Wi-Fi。
BP 海外市场（Walmart / Best Buy）必然涉及——美国家长开车带孩子出门、欧洲奶奶家无 Wi-Fi 都是常态。
是订阅模式的最强场景——蜂窝流量天然适配订阅打包销售，避免家长账单焦虑。

SC-D 商业空间触点——商超、玩具店、博物馆、学校、养老社区。这是新用户转化的核心漏斗：

BP 提到的"全球首家旗舰店已入驻孩子王"就是这个场景——轮式机器人作为店内 IP 形象大使 + 试玩入口，让"不知道 AIGG 是什么"的人 5 分钟体验完整。
博物馆/学校：作为AI 教学伙伴/讲解员，把 AIGG 嵌入素质教育市场。
养老社区：作为陪伴 + 健康监测，BP 第 12 页明确写过"养老"。

⊙.12有机整体 · 智能与互联协奏的 1+1>2 效果

把"既笨又孤立的传统玩具"变成"有机协作的智能整体"的具体技术实现表现为以下 6 种"协同涌现"——这些是单一玩偶/单一道具做不到的。协同的前提是每个节点足够智能——只有 AI 玩偶能听懂自然语言、理解上下文、即兴生成剧情，"协同"才有意义；如果每个节点都只会预设语句，再多互联也只是"机械连接"。

协同方式	体验描述	技术依赖
角色协同	桌上 4 个玩偶各演一个角色——AI 自动分配 Director / Player / Narrator / Helper，对话不撞戏不冲突	多 Agent 协同框架 + 角色协作硬规则
道具协同	把"魔法卡"和"龙卡"同时放上桌，AI 玩偶识别组合 → 触发"召唤龙"剧情	多识别方式融合（NFC + BLE + 视觉）
空间协同	玩偶移动到桌子另一端 / 客厅 vs 卧室 / 屋内 vs 屋外——AI 根据位置自动切换剧情	BLE Mesh 信号强度定位 + 室内外感知
时序协同	主持人玩偶喊"3、2、1"——所有玩偶/灯光/扬声器同时反应（同步精度 ≤50ms）	家庭时钟同步 + 提前调度
跨家庭协同	朋友家的玩偶来做客 → 自动加入家庭网络 → 临时组队游戏；走后数据各归各	身份标识 + 临时家庭加入协议
跨场景协同	家里的小宝跟你去乐园——在乐园成为向导，回家后讲述冒险	Persona 跨场景身份延续 + 离线推进

⊙.13用户场景需求清单 · 15 条

ID	需求	衡量标准	优先
⊙1	物理世界要足够好玩提供屏幕游戏不可替代的体验	家庭日均使用时长 ≥30 分钟智能拉升单点上限·互联拉升整体涌现两者乘积·缺一不可	P0
⊙2	智能与互联的乘积效应每只玩偶都聪明 + 设备形成有机整体	单玩偶可玩性 × 设备数量协同不做"傻物件互联"也不做"孤独的聪明玩偶" 家中设备越多·体验越好（不是越乱）	P0
⊙3	SC-A 家庭场景为主战场支持 2-6 人多设备协同	客厅 / 卧室 / 餐桌 / 床头全场景跑通不只做单点功能	P0
⊙4	SC-B 户外场景无家庭 Wi-Fi 也能用	蜂窝模块（LTE-M / Cat-1bis / RedCap）+ 离线降级	P1
⊙5	SC-C 游乐场场景大型机器人作为场景演员	轮式 / 双足机器人作为 IP 大使·与个人玩偶联动	P1
⊙6	SC-D 商业空间触点转化新用户的漏斗	5 分钟体验·一键关注/订阅/购买回家版	P1
⊙7	家庭与乐园 Persona 联动	"小宝"跟你去乐园·变向导·回家讲述冒险不让乐园和家是两个分裂世界	P1
⊙8	6 种协同涌现角色 / 道具 / 空间 / 时序 / 跨家庭 / 跨场景	每种协同至少有 2 个产品级落地场景	P0
⊙9	朋友来访临时组网开机即被发现	访客玩偶 30 秒内加入·走后数据各归各	P1
⊙10	智能家居联动（可选）客厅灯/音响/电视	支持 Matter 1.4+ 协议·非必须但可加分	P2
⊙11	"AI 不替代人际"原则Persona 鼓励家庭成员一起玩	活动设计审查·禁止单向沉迷设计参考 T/GDIDA 26—2025《智能玩具场景化设计导则》	P0
⊙12	全人群覆盖儿童 / 青少年 / 成人 / 老人	产品矩阵覆盖至少 3 个人群·活动 IR 支持年龄分层适配不锁定单一儿童视角老年陪伴产品有适老化与紧急响应	P0
⊙13	拥抱屏幕的设计立场屏幕是体验栈一部分	家长 APP / 创作者 Web / 玩偶 LCD / 远程视频 / AR 眼镜都被支持不为反屏幕而反屏幕但物理形态承担主战场	P0
⊙14	NUI 自然交互范式多模态自然交互作为核心抽象	语音/视觉/触觉/手势/姿态/表情多通道协同·多模态融合理解意图不让某一种交互方式主导（如不强制屏幕点击）跨人群普适·儿童老人都不需先成为"用户"	P0
⊙15	游戏性表现力七维度跃迁每个维度可衡量	动态生成内容·实时反馈丰富性·自适应难度·声光电协同·连续人格·灵活张力·跨设备协奏不让"AI 更智能"停留在含糊修辞每个维度有具体的工程指标	P0

§ 01

核心抽象与设计哲学 Foundational Abstractions

需求簇 A · 6 条

AIGG 平台不是一个游戏引擎，也不是一个聊天 AI，而是"角色在玩活动"的统一运行时。所有产品形态——派对游戏、长线陪伴、运动健身、收集养成、UGC 创作——都是这个抽象在不同维度上的取值。

A.1统一抽象 / Role × Activity

替代"游戏 vs 陪伴"二分法的核心抽象。一切玩法都是角色在玩活动。没有"陪伴运行时"和"游戏运行时"的二分——陪伴是"AI 灵活性占主导"的活动类型，游戏是"规则确定性占主导"的活动类型。

Persona 是身份层，Player / Actor / Referee 是位置层。"小宝"（Persona）今天进入桌游临时占据 Director 位，明天进入合作解谜临时占 Helper 位，不在任何活动里时仍然是"小宝"本身。身份和"在当前活动里的位置"是两件事。

A.2双引擎协作 / Rule Engine × AI Engine

每个活动都是规则引擎与 AI 引擎按比例混合的结果，活动 IR 必须显式声明两者的比例和边界。规则引擎管确定性可玩性（不卡死、不失衡、判决公正），AI 引擎管灵活性体验（不无聊、有惊喜、有共鸣）。

维度	规则引擎	AI 引擎
角色	维护状态、判定胜负、执行强约束	演绎角色、生成对话、营造氛围
响应延迟	毫秒级（确定性）	数百毫秒~秒级（不确定）
失败模式	死锁、规则漏洞	幻觉、跑题、不安全
部署位置	必须本地、跨节点完全本地	主要雾/云、部分小模型边端
类比	Unity GameObject + Physics	LLM Agent + 长程记忆
桌游配比	90%	10%
闲聊配比	5%	95%
解谜配比	50%	50%

A.3三层 IR / Scene · Logic · Primitive

统一的活动描述语言，分三层：

L3 · 场景图

Scene Graph

Entity（角色/道具/区域）+ Component（能力组件）+ 关系。类比 Unity GameObject + Component。可被 LLM 直接生成。

JSON / YAML 数据

L2 · 逻辑图

Logic Graph

状态机 + 条件触发 + 计分 + 规则裁决。类比 Unreal Blueprint 节点图。校验器静态分析。

UGC 创作主战场

L1 · 原语

Primitive Calls

11 个 L1 平台原语调用：同步 / 信息分区 / 仲裁 / 持久化 / 状态机 / 物品 / 感知 / 长程记忆 / 主动唤起 / 情绪状态 / 内容生成。

平台契约 · 走 RFC 演进

A.4三种同步范式 / Sync Paradigms

游戏开发者必须在 L2 IR 中显式声明用哪种同步范式——平台不自动选择，因为它影响游戏设计本身。

范式	典型用途	技术栈	故障策略
Authoritative Server	回合制、卡牌、解谜、PvP、收集	gRPC + 状态快照 + 事件日志（类 Hearthstone）	选举新 Authority + 从最近快照恢复
Lockstep（锁步）	实时反应、抢答、节奏、竞速	帧锁定 + 输入广播 + 确定性回放（类王者荣耀）	全场降帧或踢出该节点
Eventual Consistency	养成、收集、异步社交、离线场景	CRDT（Yjs / Automerge）	本地优先合并，最终一致

A.5三层记忆 / Memory Architecture

Persona 角色的记忆按时间尺度分三层，每层有独立的存储位置、生命周期、隐私规则。

Working

L1 · 工作记忆 · 当前会话

最近 1-2 小时的完整对话和事件。设备本地 RAM。断电即失——这是隐私设计的根基。4-8K tokens 滑动窗口。

玩偶本地 / 不上云

Episodic

L2 · 事件记忆 · 最近 30 天

LLM 提炼后的关键事件 + 向量检索。每天睡前压缩 L1 → L2，丢弃 90% 细节。{date, type, summary, embedding, importance}。

雾节点 + 加密云备份

Semantic

L3 · 用户画像 · 永久

关于"用户是谁"的稳定知识。月度从 L2 归纳沉淀，丢弃 95%，只留稳定人格特征。结构化 KV + 自由文本人格描述，几 KB。

云端加密 / 用户可导出删除

A.6两段式放置规划 / Compile + Lookup

不做"100ms 实时全局重规划"——那不可能在 MCU 上跑。正确做法是编译期穷举 + 运行时查表，类比数据库 query plan cache。

编译期（游戏发布时，云端，时间充裕）：穷举 10-20 种典型设备组合，用 ILP/启发式求解器生成 PlacementPlan 集合，附带 fallback 链。算几小时也无所谓。
运行时（游戏开始/进行中，雾节点，资源紧张）：扫描现场设备，匹配最相似 PlacementPlan（毫秒级查表）。游戏中只在 plan 内做小范围切换，不做新计算。
触发切换的事件：节点掉线 / 电量 <15% / 网络丢包率 >20%。沿预编译 fallback 链走下一个。
新设备型号上市：云端重跑编译，OTA 推 plan 更新。和应用商店推 APP 更新是一回事。

§ 02

活动分类 · 6 Class Activity Classification

需求簇 B · 9 条

AIGG 必须能描述市面所有主流玩法——从狼人杀到健身环、从盲盒抽卡到情绪日记。我们采纳学术（Caillois / Aarseth / MDA）+ 产业（GameRefinery 三层分类）的混合方案，得出 6 Class × 25 Genre × 多维 Tags 的分类体系。

B.16 大 Activity Class

Class	核心驱动	典型场景	AI 玩具优势	商业模式
Casual 休闲	Caillois Agon/Mimicry	益智、消除、问答、文字	物理共玩、全家围坐	IAA + 轻 IAP
Hybrid Casual 混合休闲 ⭐	Caillois 多维混合	卡牌对战、合成、桌游派对	NFC 卡带 + 长线收集	IAA + IAP 主力
Mid-core 中度核心	Caillois Agon 强	RPG、策略、沙盒、角色扮演	多玩偶 NPC、物理空间策略	IAP 主导
Companion 陪伴 ⭐	Caillois Mimicry 主	情感陪伴、养成、日记、疗愈	物理陪伴感、长程记忆	订阅 + 内容包
Sports & Active 体感运动 ⭐	Caillois Ilinx + Agon	健身、舞蹈、平衡、节奏、驾驶	传感器 + 执行器硬件契合	IAP + 设备配件
Chance & Collect 运气与收集 ⭐	Caillois Alea	抽卡、转盘、盲盒、运势、命运	NFC 实体卡 + IP 联名	实体道具高复购

⭐ 标记的四类是 AIGG 区别于纯软件竞品的护城河赛道——这些是手游做不了或做不好、AI 物理玩具天然契合的领域。Hybrid Casual 是商业主战场（2023 年市场收入增长 30%）；Companion 是 LTV 护城河；Sports & Active 是硬件优势变现；Chance & Collect 是 IP 联名核心机制。

B.2三种结构维度

B.2.1

规则强弱

Structure Type

强规则

混合

弱规则

决定规则引擎 / AI 引擎的比例。强规则用 Authoritative 或 Lockstep 同步，弱规则用 Eventual。

B.2.2

时间尺度

Time Horizon

短时（分钟）

中时（小时）

长线（周-月-年）

决定状态生命周期。长线需要 L3 持久画像，短时单局结束即清。

B.2.3

参与规模

Participation

单人

多人本地 2-6

异地联机

决定网络拓扑。本地多人走 BLE Mesh + Wi-Fi Direct，异地走云端中转。

B.2.4

活动 Tags（多维）

Multi-dim Tags

Caillois 动机

MDA 美学

AI 角色

参考 data.ai Game IQ 的"分类 + 标签"分离原则。主分类唯一，标签多选。

B.3活动 IR 实例

下面是"家庭桌游夜·爱心萌可主持版"的完整 IR：

activity: family_board_game_aiqkmk
version: 1.0.0

# Layer 1 · Class / Genre / Subgenre（唯一归属）
class: hybrid_casual
genre: party_board_game
subgenre: ai_hosted_card_game

# Layer 2 · 多维 Tags（多选正交）
caillois:
  primary: agon
  secondary: [mimicry, alea]
mda_aesthetics: [fellowship, challenge, fantasy]
aarseth:
  pace: turn_based
  player_composition: multiplayer_local
  teleology: finite

# 平台调度参数
sync_paradigm: authoritative
ai_roles: [referee, director, persona]
ip: 爱心萌可
min_hardware_tier: companion
time_horizon: session

# 降级策略（鲁棒性一等公民）
degrade_strategy:
  no_screen: skip_visual_score, use_audio_only
  one_device: round_robin_solo_mode
  network_loss: fall_back_to_ble_mesh

§ 03

AI 角色 · 7 个一级分类 AI Roles

需求簇 C · 8 条

基于 Greimas（1966 行动元模型）+ Bartle（2004 NPC 类型学）+ Warpefelt（2016 实证）+ Bouquet（2021 Companion 设计空间）+ Rato & Prada（2021 ICEC）的学术综合。7 个角色 × 三轴 MECE 分类。

C.1三轴一级分类

一级（Greimas 三轴）	角色	学术对应	简述
Action Axis 行动轴	Player（玩家）	Bartle Player / Greimas Subject	作为活动的平等参与者下场玩
	Opponent（对手）	Greimas Opponent / Warpefelt Combat Challenge	作为对手或挑战源存在
	Helper（帮手）	Greimas Helper / Warpefelt Ally	作为辅助角色帮助玩家
Communication Axis 传递轴	Director（导演）	TRPG Game Master / Warpefelt Quest Giver	编排活动、发起任务、控制节奏
Communication Axis 传递轴	Narrator（说书人）	互动小说 Storyteller / Warpefelt Ambient	叙事、描绘、营造氛围
Relational Axis 关系轴	Persona（伴角）	Bouquet Companion 完整设计空间	长期陪伴的固定身份
Of-Activity 活动来源	Author（作者）	新角色 · AIGG 特有	不参与活动，创造活动本身

C.2身份层 / 位置层分离

Persona 是身份层（Identity），Player / Opponent / Helper / Director / Narrator 是位置层（Position）。

"小宝"（Persona）今天进入桌游 → 临时占据 Director 位；明天进入合作解谜 → 临时占 Helper 位；后天进入对战游戏 → 临时占 Opponent 位。不在任何活动里时，"小宝"就是 Persona 本身（Bouquet 7 维度里的纯陪伴状态）。Author 永远在云端，不下场。

C.3七角色完整定义

ROLE 01

玩家 · Player

Action Axis · Per-Session

单局

在活动中

平等参与

作为活动的平等参与者下场玩。从活动 IR 读取"玩家位"配置，受规则引擎约束，行为输出走和人类玩家相同接口。能力可调（不挫败也不无聊），不暴露上帝视角。典型：桌游凑数、合作搭档、对战对手、Boss、守关 NPC。

ROLE 02

对手 · Opponent

Action Axis · Per-Session

单局

挑战源

戏剧性

作为对手或挑战源存在。被设计成"挑战源"的角色，比如解谜 Boss、密室反派、捣蛋鬼。难度自适应（小孩玩得开心，大人玩得有挑战），戏剧性表演（不只是"赢"，要有反派魅力），知道何时认输。

ROLE 03

帮手 · Helper

Action Axis · Per-Session

单局

辅助

合作

作为辅助角色帮助玩家。队友、教练、提示者。给反馈、调难度、记得你昨天哪里失误。Persona 长期化时变成 Coach 的形态。

ROLE 04

导演 · Director

Communication Axis · Per-Session

单局

活动外

规则裁决

站在活动外组织规则、判定胜负、控制节奏。桌游 GM 角色。拥有"裁判权限"读取所有玩家隐藏信息（如狼人杀底牌）。一个活动只能一个 Director——硬约束。规则严格执行 + 节奏感 + 公平性 + 应变（处理小孩耍赖等意外）。

ROLE 05

说书人 · Narrator

Communication Axis · Per-Session

单局

叙事

表演

在活动里扮演场景中的人物——讲述、表演、营造氛围、推进剧情。不参与规则裁决，不影响胜负。一个活动可以有多个 Narrator。和 Director 区别：Director 管"规则对不对"，Narrator 管"好不好玩、有没有沉浸感"。

ROLE 06

伴角 · Persona

Relational Axis · Persistent

跨时

身份

长程记忆

跨时间、跨活动持续存在的稳定身份。云端权威唯一身份（user_id × persona_id），三层记忆跟随。进入活动时临时占据 Player / Opponent / Helper / Director / Narrator 之一。BP 中"16 种性格养成"的真正落地。

ROLE 07

作者 · Author

Of-Activity · Persistent

不下场

永远云端

AIGG 独有

不参与玩任何活动，专门创造活动本身。把用户的"我想玩个吹气大赛"翻译成可玩的活动 IR。这是 AIGG 中"G"（Generated）的承担者，也是学术界 NPC 分类中没有的角色——传统游戏关卡都是设计师写的，物理 AI + 大模型时代独有。

C.4角色 × 玩法映射

玩法品类	必需角色	Persona 通常占哪个位置
桌游 / 卡牌	1 Director + N Player	Director 或 Player
解谜 / 密室	1 Director + N Narrator + N Opponent	Narrator（演反派）
互动小说 / RPG	N Narrator（含旁白）	Narrator（主角搭档）
恋爱叙事	N Narrator	Narrator（恋爱对象，可长期化）
角色扮演 / 过家家	N Narrator	Narrator（任意分配）
长线养成	—	Persona 自身被养成
闲聊 / 陪伴	—	Persona 自身
情绪日记 / 疗愈	—	Persona（倾诉模式）
教育训练 / 体感运动	1 Director / 1 Helper	Persona 占 Director 或 Helper 位
UGC 创作	1 Author	—
派对 / 家庭聚会	1 Director + N Narrator + N Player	Director 或 Player

§ 04

物理层硬件 Hardware Tiers

需求簇 D · 15 条

硬件层不是 BP 中"4 层金字塔 + 7 类 Chiplet"的浪漫描述，而是四档算力 × 8 类标准化模块 × 蜂窝接入 × 真实 BOM 的工程基线。每档硬件能力边界、每个模块的真实芯片选型、每个 SKU 的目标 BOM 都有数据支撑。

D.1四档算力档位

档位	代表芯片	CPU	NPU/AI	RAM	功耗	BOM	能力边界
D1 微控档	STM32WB / RTL8763E	M4 64MHz	无	128KB-1MB	<100mW	$1-3	仅唤醒词、按键、灯光
D2 嵌入档	ESP32-S3	LX7 240MHz×2	向量指令	8MB PSRAM	<500mW	$2-5	离线 ASR、TTS、轻量视觉
D3 边缘档	Rockchip RK3588	A76×4 + A55×4	6 TOPS	4-32GB	5-10W	$25-80	本地 1B-3B LLM、实时视觉、运动控制
D4 工作站档	NVIDIA Jetson Orin/Thor	A78×8	100-275 TOPS	8-128GB	15-60W	$400-3500	7B+ LLM、运动规划、多模态融合

D.2四层产品 → 算力档位映射

基座层

AI 玩伴精灵 · ¥199-399

必装：IMU + NFC + 单/双麦 + 喇叭 + LED 阵列 + 1500mAh LiPo。BOM 约 $20-25，毛利 50%+。

D2 · ESP32-S3

情感层

AI 情感宠物 · ¥399-1999（双线）

入门款 D2（云优先，BOM $60）/ 旗舰款 D3 入门（本地 1B LLM，BOM $120-150）。加摄像头、LCD 屏、4 麦阵列、3000mAh + 无线充电。

D2 主 / D3 入门

场景层

轮式人形机器人 · B 端 ¥3-10 万

完整 RK3588 + 多模态套件 + 步进电机底盘 + 大屏 + 工业级结构件。BOM 约 $700-1000。

D3 · RK3588

锚定层

双足人形机器人 · ¥30-100 万

Jetson Orin Thor + 全身 IMU + 多目视觉 + 24-30 个 BLDC 关节 + 力觉反馈。BOM 约 $27000。

D4 · Jetson Orin Thor

D.3Chiplet 模块化（8 类功能子板）

每个子板有标准化 PCB 接口（板对板连接器、协议）。新产品只需选模块组合，新 SKU 7 天打样、30 天量产。注意：BP 中"7 类模块"是简化叙事，工程上需要把"设备间互联"和"周边道具接入"分成独立的两类——它们解决的是完全不同的问题。

模块	关键芯片	接口	4 层产品组合
主控模块	ESP32-S3 / RK3588 / Jetson	UART, I2C, SPI, USB	必选 · 决定档位
语音模块	双 PDM / XMOS XU316 + 功放	I2S	所有层
视觉模块	OV2640 / OV5640 + ISP	DVP / MIPI-CSI	情感层选配 · 机器人必装
触觉模块	IMU LSM6DSO + 触摸 + 压感	I2C, SPI	所有层必装
显示模块	LCD/OLED + 触摸控制器	SPI/MIPI-DSI	情感层 / 机器人
运动模块	舵机 / 步进 / BLDC + 编码器	PWM / CAN	机器人必装
设备互联模块（设备↔设备 / 设备↔云）	BLE 5.x + Wi-Fi + 蜂窝模块（可选）	UART / SPI / SDIO	所有层必装蜂窝可选（出门设备/独立机器人）
周边接入模块（主机↔道具）	NFC PN532 / BLE 扫描 / IR 收发 / 视觉识别协同	I2C / SPI / DVP	多种识别方式并行支持

真正的护城河是"主机 + 周边道具"的生态模式，不是某一种具体的识别技术。BP 中"卡带经济"对应的是"AI 主机识别多种周边道具"的整体模式——周边可以是 NFC 卡片、可以是带 BLE 的电子道具、可以是带二维码的卡片让摄像头识别、可以是发出特定声波的玩具。所有这些识别方式都是平等的工具，应该并行支持，不应该把任何一种神化。

具体地说：NFC 适合"无源道具卡片"（成本极低、贴个标签就行），BLE 适合"有电子能力的活动道具"（机动小车、声光道具），IR 适合"对战类玩具"（可以收编市场上已有红外对战玩具），视觉识别适合"丰富的实体物品"（识别真实世界的杯子、积木）。架构层把"周边道具识别"作为一等公民，把这五六种识别方式抽象到统一的"周边接入协议"下面。

D.4周边道具 / 玩具的完整硬件谱系

BP 的"卡带经济"概念覆盖范围远比"NFC 卡片"广得多。"主机+周边"生态需要一整套从无源到有源、从纸卡到电子玩具、从家庭用到游乐场用的完整硬件谱系。这部分是上一版漏掉的关键内容，本节系统补充。

"主机+周边玩偶"模式不是 AIGG 的发明，而是有 15 年成熟工业先例：

Skylanders（Activision 2011）— 第一个用 NFC 玩偶的"toys-to-life"游戏，开创类型
Disney Infinity（2013）— 跨 IP 联名（漫威、星战、皮克斯），2016 年终止
Nintendo Amiibo（2014-至今）— 不绑定单一游戏，跨多游戏使用，至今仍活跃，每个 ¥99
LEGO Dimensions（2015）— 乐高积木 + NFC 底座 + 屏幕游戏
ZURU 5 Surprise Mini Brands（2020-）— 盲盒抽卡 + 收集，无电子但每年 10 亿美元收入

AIGG 的不同之处：① 主机不是屏幕游戏机，是物理玩偶 ② 周边不局限于"角色雕像"，是各种道具 ③ 不依赖 IP 授权也能玩（自有 SKU + 第三方）④ 周边和玩偶组成有机整体，不只是"unlock 关卡"

D.4.1 周边道具的 4 大形态

形态	电子能力	道具单价	典型 SKU	识别方式
无源道具纸卡 / 印刷品 / 贴纸	无（被动识别）	¥1-20	NFC 卡片包、印刷地图、收集图鉴、IP 联名卡牌、迷你贴纸册	NFC / QR / 视觉
结构化道具积木 / 拼图 / 模型	无源 + 标识码	¥30-300	NFC 嵌入积木、电子拼图、IP 角色雕像、迷你场景套装	NFC / 结构识别
电子道具带 BLE/IR 的玩具	MCU + 电池 + 灯/声/振	¥99-499	抢答按钮、星光灯、迷你打印机、玩具枪、激光剑	BLE / IR / RF
机动道具可动的电子玩具	MCU + 电机 + 电池	¥199-999	遥控小车、机动小宠物、活动玩偶、电子飞行器、智能跳绳	BLE 双向控制

D.4.2 无源道具的硬件 / NFC 标签详细

这一类是"卡带经济"的成本主力——单价 ¥1-20，毛利可超 80%。

NFC 标签型号	容量	单片成本	抗破解	适合用途
NTAG213	180 字节	¥0.3-0.5	低	简单 ID 卡 · 大量铺货
NTAG215	540 字节	¥0.8-1.5	中	含简单数据·主流选择
NTAG216	924 字节	¥2-3	中	带防伪签名
NTAG424 DNA	416 字节 + 加密	¥4-8	高	限量款 · 防复制
MIFARE Ultralight C	192 字节 + 3DES	¥3-6	高	高价值 IP 联名

无源道具的形态创新——不只是卡片：

NFC 印刷标签——直接印在书的封面、零食包装、漫画扉页（成本 ¥0.5/张）
NFC 嵌入积木——参考 LEGO Dimensions 模式，每块积木有专属 ID
NFC 雕像——参考 Amiibo 模式，IP 联名收藏品（毛利 70%+）
QR 码地图——大尺寸印刷地图，玩偶摄像头识别位置
NFC 贴纸——孩子可以贴在自己物品上，让玩偶认识"我的水杯""我的书包"

D.4.3 电子道具的硬件参考设计

电子道具用什么芯片？不需要主控 MCU 那么强大，几块钱的 BLE SoC 就够用。下面是典型 BOM 估算：

电子道具典型 SKU	核心芯片	BOM	建议零售价	毛利
BLE 抢答按钮	nRF52810 + 按键 + LED + 1 节 AA 电池	¥18-25	¥99-129	~75%
BLE 星光灯	nRF52810 + WS2812 灯阵 + 充电锂电	¥35-50	¥149-199	~70%
BLE 迷你打印机	nRF52840 + 热敏头 + 锂电	¥80-120	¥299-399	~65%
IR 玩具枪	STM8 + IR 收发 + 振动 + 灯	¥25-40	¥149-249	~75%
BLE 遥控小车	nRF52810 + 双 N20 电机 + 锂电	¥60-90	¥249-399	~70%
BLE 智能跳绳	nRF52832 + 霍尔传感器 + LCD	¥50-75	¥199-299	~70%

D.4.4 大型互动装置 · 游乐场 / 商场场景

在游乐场和商场展厅场景，"周边"还包括大型互动装置——这块工业链已经非常成熟（中国自贡是全球动画装置制造中心，控制 65% 的全球供应）。AIGG 不需要自己做，但需要把它们纳入"主机-周边"协议生态。

装置类型	典型规格	成本	AIGG 集成方式
动画恐龙 / 动物模型	真人尺寸 · IR/红外感应	$500-4300	开放 API · 主机识别后触发动作
互动投影地面	LiDAR + 投影仪	$10000-50000	玩偶站上去触发场景切换
AR 滑梯 / 秋千	动作传感 + 投影	$5000-20000	跟踪孩子动作，画面响应
动画 NPC（站立式机器人）	气动驱动 + 表情	$3000-30000	双足/轮式机器人替代品
跨场景任务腕带	BLE 加 NFC 双协议	¥30-80/个	USJ Power-Up Band 模式

D.4.5 周边道具的发布与运营节奏

周边道具的商业逻辑和主机完全不同——主机是耐用品（一年买一只），周边是消耗品/收集品（每月新品、季度联名、年度限量）：

发布频率	典型 SKU	商业目标
每月新品	NFC 卡片包、贴纸、小印刷品	持续 ARPU · 培养收集习惯
季度联名	电子道具、IP 角色雕像	大额客单 · 节日驱动
年度限量	带加密 NFC 的稀有款	溢价 · 收藏者群体
事件联动	电影/电视新作上映 · 体育赛事	蹭 IP 热度

D.4.6 周边道具的接入协议规范

所有周边道具必须遵守 AIGG 的"周边接入抽象层"协议（详见需求 E12）。统一抽象设计如下：

# 周边道具的统一描述符 schema
peripheral_id: PROP-2026-AIQKMK-CARD-007
type: passive_card | active_electronic | structured_model | mechanic_toy
recognition:
  primary: nfc
  protocol: NTAG215
  data_uri: aigg://prop/PROP-2026-AIQKMK-CARD-007

capabilities:                    # 这个道具能做什么
  can_emit: [light, sound]    # 电子道具才有
  can_sense: [button_press]
  can_move: false

activates:                       # 接触主机后触发什么
  activity: aiqkmk_kitchen_adventure
  role_in_activity: ingredient_card
  initial_value: { flavor: sweet, level: 3 }

commercial:
  sku: AIQKMK-PACK-S03-008
  retail_price: ¥39
  ip_owner: SAMG · 爱心萌可
  launch_date: 2026-06-01
  expiry: never | seasonal | yearly

safety:                           # 儿童安全
  age_min: 6
  choking_hazard: false
  battery_type: none | aaa | rechargeable

D.4.7 周边道具自身的视觉能力 · "看"也是周边的能力之一

之前的视觉讨论只考虑了"主机的视觉"，遗漏了一条独立维度：周边道具自身也可以有视觉。这是一个被低估的设计空间——点读笔已经存在 20 年并卖出几亿支，证明"小道具+小摄像头"是验证过的产品模式。AIGG 的卡带经济不应该只有"被识别"的道具，也应该有"会看"的道具。

视觉道具三大类型

类型	原理	BOM 范围	典型产品	AIGG 用途
OID 光学识别笔红外感光	红外感光头 + MCU + 喇叭识别印刷品上的 OID 隐形码	¥50-200	毛毛虫点读笔 / 小达人点读笔 / 各种 IP 联名点读笔	"点哪读哪"教育玩具识字卡 / 双语启蒙 / 故事书
CMOS 扫描翻译笔 OCR 摄像头	500-800 万像素 CMOS + 端侧/云端 OCR + AI	¥349-999	有道词典笔 A7S/X7 Pro / 科大讯飞翻译笔 / 网易有道	扫读翻译 / 整页 OCR 跨语言学习 / 教辅辅助
扩展摄像头模组 USB / WiFi 外接	OV2640/OV5640 + ESP32-S3 / 蓝牙串口	¥30-150	USB 内窥镜·WiFi 鸟巢摄像头·蓝牙趣拍照仪	给任何玩偶/玩具临时加视觉探险游戏 / 拍照打卡 / 真实物品识别

A · OID 光学识别笔 · 详细工程

OID（Optical Identification）是1990 年代台湾松翰科技发明的成熟技术——把肉眼几乎不可见的隐形码（0.5×0.5mm 微点阵）印在书本上，笔尖红外感光头识别后播放对应音频。第三代 OID 码组超 100 万，铺码精度达印刷品 1‰。

关键芯片	厂商	能力	典型 BOM
SN9P701 / 705	松翰 Sonix	OID2 (2,098 码) / OID3 (65,535 码)	¥3-8
SPCD11A / SPCE061A	凌阳 Sunplus	MCU + Speech 软解·成本更低	¥2-6
松翰第三代 OID	松翰 2024	码组 > 1,000,000·防伪强	¥10-15

OID 和 NFC 都是"无源道具识别"，但解决不同问题：

NFC：道具上贴一个标签 → 主机靠近读 → 识别整张卡。"道具的身份"。
OID：印刷品上印满隐形码 → 笔尖触碰具体位置 → 识别位置。"道具上的哪个点"。

在 AIGG 体系下：NFC 适合"卡片级识别"（这是哪一张卡）；OID 适合"页面级识别"（在书的哪一页哪个角落）。两者并存，IP 联名图书可以两者都用——封面贴 NFC（识别整本书）+ 内页铺 OID 码（点哪读哪）。

B · CMOS 扫描翻译笔 · AI 化的视觉道具

有道词典笔系列是当下最成功的 AI 视觉道具——A7S（2025 上市，¥349）已集成豆包 / 千问 / DeepSeek / 子曰多模型集群，可在线 AI 问答；X7 Pro（¥999）配 800 万像素摄像头 + 4.1" 屏。它已经不是简单的"扫描翻译"，是"带屏幕的视觉道具+AI"。

典型工程架构（以词典笔为例）：

# 扫描翻译笔的硬件 / 软件栈
硬件层:
  - CMOS 摄像头: 800万像素·30fps·扫读模式
  - 主控: 中端 SoC（如 RK3326S / 紫光展锐 W117）
  - 屏幕: 1.4-4.1 英寸 LCD / 墨水屏
  - 连接: WiFi 2.4G + BLE 5
  - 电池: 1500-3000mAh

软件层:
  - 本地 OCR: 中英文字识别（自研或 PaddleOCR）
  - 本地翻译: 离线词典 + 离线 NMT 模型
  - 云端 AI: GPT/豆包/Qwen 接入·复杂问答
  - 教材点读: 兼容 OID（部分型号）

AIGG 集成:
  - 设备身份: 通过 BLE/WiFi 加入家庭 Mesh
  - 协议: 五类互联中的"主机↔周边道具"+"设备↔云"
  - 数据回流: 学了什么单词·读了什么书 → Persona 长程记忆

C · 扩展摄像头模组 · 给任何玩具临时加视觉

这是 AIGG 真正独特的设计空间——用一个 ¥30-150 的 BLE/WiFi 摄像头模组，让任何"无视觉的玩偶"或"无视觉的环境"临时获得视觉能力。

形态	规格	BOM	使用场景
夹式摄像头	OV2640 + ESP32-S3 + 200mAh	¥30-60	夹在玩偶头上让它"看见"·夹在书上当智能阅读伙伴·夹在桌边监控孩子学习
项链/胸针型	500 万像素·磁吸附	¥80-150	挂在孩子衣服上记录"今日所见"·生成绘本日记
桌面探险摄像头	3-5MP + 双向通话	¥100-200	放在房间各个角落让玩偶"远程视觉"·探险游戏的"侦察兵"
玩具枪/望远镜	仿真造型嵌入摄像头	¥150-300	"用望远镜寻宝"·瞄准游戏·真实场景识别
USB 扩展接口	玩偶预留 USB-C 口·插任意 USB 摄像头	主机 +¥5 BOM 外设 ¥30-300	家长升级路径·教育机构按需配置

这是 AIGG 区别于其他 AI 玩具的核心创新点之一——既然摄像头让 BOM 上涨 ¥30-50，那不如把它从主机里拿出来，做成可拆卸/可叠加的"道具"：

基座层 ¥199 玩偶 不带摄像头，但有 USB-C / BLE 协议接收外接摄像头数据
扩展摄像头 单独售卖 ¥99-299，作为"周边道具"
家长按需购买——"给小宝加双眼睛"成为可选升级，而不是强制 BOM
同一个摄像头道具可以接在不同玩偶上——今天给小宝戴，明天给小狗（另一只玩偶）戴

这是真正的"模块化视觉"，对应 BP 中"卡带经济"的视觉版本。

D · AR 头盔 / VR 玩具 · 视觉的另一个方向

除了"道具看世界"，还有"道具让你看见虚拟"——AR 头盔 / VR 玩具 / 全息投影道具。这一类相对成熟但 BOM 偏高，AIGG 应放在 P2 阶段：

儿童 AR 头盔（¥299-1999）：通过 LCD 屏 + 反射镜投影 AR 内容到现实视野中。Magic Leap、Tilt Five 路径，但儿童化简化版
桌面投影道具（¥399-1500）：把虚拟内容投射到桌面，配合 NFC 卡触发不同投影
智能眼镜陪伴（¥1500+）：戴上后玩偶以 AR 形式出现在现实中——AIGG Persona 的视觉化身

E · 周边道具视觉的协同涌现 · AIGG 独有的玩法

把"周边道具自身有视觉"和"主机视觉"结合，会涌现一些市面任何单一玩具都做不到的玩法：

玩法	用到的视觉道具	体验描述
探险寻宝	主机玩偶 + 望远镜形扩展摄像头	玩偶讲故事："前方有宝藏！举起望远镜找找看！" 孩子拿望远镜对着房间扫——望远镜识别出 NFC 卡藏匿位置 → 玩偶："就是那里！"
双语启蒙	OID 点读笔 + 主机玩偶	孩子用点读笔点书上的"apple"图 → 笔说"apple" → 主机玩偶接话："你点的是苹果！它是英文 apple，中文苹果，红红的水果哦~"——OID 笔做"识别"，主机玩偶做"扩展引导"
真实物品互动	词典笔 / 扩展摄像头 + 主机玩偶	孩子用词典笔扫桌上的乐高积木 → 主机玩偶："你拼的飞机真漂亮！"——把"扫描"和"陪伴对话"分到不同道具
多视角合作游戏	多个扩展摄像头在房间不同位置	玩偶游戏中："小狐狸往左跑了！" 客厅角落的摄像头识别后报告 → 玩偶："快追到沙发后面去！"——分布式视觉
记录今日所见	胸针/项链型摄像头 + 主机玩偶	孩子戴胸针摄像头出去玩 → 回家后玩偶："今天在公园看到一只大狗对吧？我们一起画下来！" → 自动生成绘本日记
家长远程参与	家长 APP 摄像头 + 孩子家中主机	家长出差 → APP 摄像头看孩子的画 → 主机玩偶代家长说话"妈妈说画得真好！"——跨地点视觉

D.5主机识别周边道具的多种方式 · 平等并行

"主机识别周边道具"是一个通用问题，有 5 种以上的实现方式，每种适合不同场景。AIGG 应该并行支持这些方式，让创作者/IP 合作方根据道具特性自由选择。下面是它们的能力对比：

识别方式	道具成本	道具供电	识别距离	识别延迟	典型场景
NFC 标签 13.56MHz RFID	极低（¥0.5-2）	无源	<10cm 触碰	<100ms	卡片、贴纸、印刷道具 BP 卡带主力
BLE 广播 2.4GHz	中等（¥10-30）	需电池	10-50m	10-100ms	机动小车、声光道具、抢答器、灯光道具
红外 IR 900nm	低（¥3-10）	需电池	线性 5m	<50ms	对战类玩具（激光剑、玩具枪）可收编市场已有 IR 玩具
视觉识别 QR / 物体识别	极低或免费	无源（被动）	0.3-2m 视野内	100-500ms	真实物品识别、印刷图卡、现场场景
声波识别超声波 / 可听波	极低（¥1-3）	道具发声/被动	1-5m	200-500ms	玩偶之间识别、敲击响应、音乐道具
RF 固定码 433/868MHz	低（¥5-15）	需电池	线性 30m	<200ms	遥控车、儿童家电、传统 RF 玩具

每种识别方式都有独特的物理特性和成本结构，AIGG 不预设"哪种最重要"，而是把它们抽象到统一的"peripheral_recognition"协议下面。具体哪种适合，由 IP 合作方/创作者根据道具特性来选择：

NFC 适合"无源、贴纸级别成本、需要触碰"——盲盒卡片、IP 联名卡牌、儿童识字卡
BLE 适合"有电子能力、需要远程控制"——遥控车、星光灯、多人抢答器
IR 适合"对战、视线方向重要"——激光剑互戳、玩具枪互射，且可收编传统 IR 玩具市场
视觉适合"识别真实世界物品"——给玩偶看你的画、识别你养的真宠物、识别食物
声波适合"近距离玩偶之间识别"——拍手让玩偶配对、敲击响应
RF 固定码 适合"收编传统遥控玩具市场"——不让大量传统玩具变成废品

D.6蜂窝物联网 · 远程连接能力

玩偶/机器人/周边设备不应该被绑死在家里 Wi-Fi 上——出门、独立机器人、户外探索类玩法、跨家庭联机都需要蜂窝连接。AIGG 必须把蜂窝物联网作为一等公民支持。

蜂窝层级	峰值速率	模组成本	功耗特征	AIGG 适用场景
NB-IoT 3GPP Cat-NB	<250kbps	$3-5	电池年级别	低带宽心跳、定位、远程唤醒（"妈妈让小宝睡觉"）
LTE-M / Cat-M1	1 Mbps	$5-10	电池月-年级别	支持移动 + 语音外出陪伴（车上、奶奶家）
LTE Cat-1 / Cat-1bis	10 Mbps	$8-15	中等	实时对话、流式音频当前出门设备主流
5G RedCap / NR-Light	50-150 Mbps	$15-30（下降中）	中等	视频陪伴、机器人远程操控 2025+ 主推方向
5G eRedCap	~10 Mbps	$10-20（预测）	低	2026+ 预留 · 等模组成熟

BP 中"出海到 Walmart / Best Buy"的产品规划意味着必须考虑没有家庭 Wi-Fi 的场景——美国家长带孩子开车出门、欧洲奶奶家没有 Wi-Fi、户外露营场景。蜂窝模块（特别是 LTE-M / Cat-1bis / RedCap）是这些场景的唯一解。

AIGG 的蜂窝策略分三档：

不带蜂窝——基座层 ¥199-399 入门款，纯家庭 Wi-Fi 场景，BOM 友好
选配蜂窝——情感层旗舰款 + 出门款，加 ¥150-300 售价升级
必装蜂窝——独立机器人、户外探索玩偶、跨家庭联机产品

同时考虑：eSIM（避免实体 SIM 卡儿童拆出来吞食的安全风险）+ 多运营商管理平台（中国移动 OneNet / 阿里云 IoT 蜂窝 / Hologram 等海外）+ 流量计费策略（绑入订阅，避免家长账单焦虑）。

D.7无线协议能力边界（实测数据）

协议	实测延迟	节点数	带宽	距离	适用场景
NFC	<50ms	1对1	424kbps	<10cm	道具触发
BLE 5.x 点对点	7.5ms-1s	1主+多从	2Mbps	10-50m	设备配对、控制
BLE Mesh @ ESP32-S3	4.5ms 中位 / 50ms+ 99 分位	实测 100	<1Mbps	50m/跳	多玩偶组网
Thread	1ms 中位 / 30ms 99 分位	250	250kbps	30-100m	智能家居（远期）
Wi-Fi 6 局域网	2-10ms	50+	1.2Gbps	30-50m	视频流、大文件
Wi-Fi Direct	2-10ms	8 设备	250Mbps	30-50m	玩偶间高带宽传输
LTE Cat-1bis	50-100ms	—	10Mbps	蜂窝覆盖范围	出门设备 · 流式对话
5G RedCap	20-50ms	—	50-150Mbps	5G 覆盖范围	独立机器人 · 视频陪伴

BLE Mesh 99 分位延迟 50ms+，不能用"实时收到信号再响应"实现 ≤50ms 灯/音/震同步。正确做法：① 统一时钟同步（PTP-like 协议）② 提前调度（"3 秒后所有玩偶同时亮灯"，不是"立刻亮灯"）③ 用 Wi-Fi Direct 跑实时游戏 lockstep，BLE Mesh 用作低带宽信令。

D.8视觉硬件谱系 · 从基础摄像头到深度感知

视觉硬件不是"加个摄像头"那么简单。AIGG 不同档位/不同场景需要完全不同类型的视觉硬件——从 ¥10 的单目 RGB 摄像头到 ¥3000+ 的工业级 RGB-D 立体相机。本节系统调研，明确选型规则。

D.8.1 视觉硬件四大类型

类型	原理	测距能力	FOV / 精度	BOM 范围	适合 AIGG 哪层
单目 RGB	普通 CMOS 摄像头	无（仅 2D）	60-120° / 1-8MP	$1-15	情感层 / 轮式机器人头部
立体双目	两个 RGB 摄像头三角测距	0.3-10m·中精度	70-178° / 厘米级	$30-200	轮式机器人导航
ToF（飞行时间）	红外脉冲计时	0.1-5m·高精度	40-100° / 毫米级	$15-100	避障·手势识别·机器人灵巧操作
结构光	红外散斑投影 + 摄像头	0.2-3m·亚毫米精度	50-90° / 亚毫米	$80-500	双足机器人精细操作（拿杯子、折衣服）

D.8.2 具体型号参考 · BOM 估算

型号	类型	规格	实际价格	AIGG 用途
OV2640	RGB	200 万像素·60° FOV	¥6-15	情感层入门款"眼睛"
OV5640	RGB	500 万像素·1080P·自动对焦	¥20-40	情感层旗舰款·拍照陪伴
OV2710 (Wide FOV)	RGB 广角	200 万像素·160° FOV	¥30-60	轮式机器人 360° 监控
VL53L7CX (ST ToF)	ToF	8x8 区域·4m 范围	¥30-50	避障·近距离手势
Arducam T2	RGB-D ToF	VGA·1% 精度·55fps	¥300-600	家庭机器人深度感知
Orbbec Gemini 305 / 330	立体 + ToF	1280×800·60fps·sub-mm 精度	¥1500-3000	双足机器人专业级
Intel RealSense D435i	立体 RGB-D	1280×720·30fps·IMU 集成	¥2000-2500	研发原型·轮式机器人开发
OAK-D Lite	立体 RGB-D + 边缘 NPU	本地 AI 推理 4 TOPS	¥1200-1800	轮式机器人智能视觉

D.8.3 AIGG 四层产品的视觉硬件配置

基座层

¥199-399 AI 玩伴精灵

不装摄像头——BOM 不允许（+$5-8 占基座层 25-40% 成本）。视觉协同走"父母手机摄像头"路径——孩子用家长 APP 给玩偶展示画作。

无视觉

情感层入门

¥399-899 AI 情感宠物

选配单目 OV2640 (200 万像素)·拍照评价孩子的画·人脸识别"是你"·物体识别（玩偶认识你的水杯）·VLM 推理走云端

单目 RGB

情感层旗舰

¥899-1999 AI 情感宠物旗舰

OV5640 (500 万像素) + ToF 短距 (VL53L7CX)·本地跑 Florence-2 / Moondream2·懂你的画、表情、手势·VLM 部分本地

RGB + ToF

场景层

B 端轮式机器人

立体双目（如 Orbbec Gemini）+ 360° 广角·SLAM 导航·避障·商场客流识别·人脸主动招呼·本地跑 Qwen2.5-VL-3B

立体 + 广角

锚定层

C/B 端双足机器人

立体 RGB-D（如 Gemini 330）+ 头部 ToF + 手腕 ToF·VLA 模型（GR00T N1 / OpenVLA / π0）·灵巧操作（拿杯子、折衣服）

RGB-D + 多 ToF

D.8.4 视觉硬件的工程考量

FOV（视场角）选型：玩偶头部摄像头建议 90-120°（接近人眼），机器人巡视用 160-178°（广角无死角）。FOV 太窄会让玩偶"看不到"桌上一半的物品。
低光性能：儿童产品很多场景在暗光环境（睡前床头、拉窗帘的客厅）——必须选 1/2.6" 以上感光元件 + 至少 f/1.8 光圈，不然玩偶"晚上看不见你"。
红外补光：暗光场景加 940nm 红外 LED 补光（不可见光，不影响儿童睡眠）+ 摄像头去除 IR 滤片——玩偶可以在黑暗中"看见"你。但要严格的物理快门和家长授权。
固定 vs 可动头部：情感层玩偶若有动机机构，让头部可以转动（±60°）——这是"看着你说话"的灵魂。Anki Cozmo 的成功很大程度上来自这个细节。
物理快门：所有带摄像头的儿童产品必须有物理快门（机械片或盖子）——这是隐私的最后一道物理保障。
EMI 与 ESD 抗扰：儿童手抓玩偶时容易产生静电放电，摄像头模组要做 ESD 防护测试。

视觉是 AI 玩具的护城河，但也是最贵的硬件升级。市面所有 ¥199 价位的 AI 玩偶都不带摄像头是 BOM 决定的——加摄像头要+ $5-8。

AIGG 的视觉差异化策略：把视觉作为情感层及以上的差异化卖点——基座层精灵不装；情感层选配（入门款无视觉、旗舰款必有）；机器人必装专业级。这样既不增加基座层成本，又让"升级到情感层"有清晰的体验跃迁。

§ 05

AI 模型与推理 AI Models & Inference

需求簇 E · 15 条

AI 玩具不是"一个 LLM 解决一切"——这是死路。真实需要 6 类模型独立选型：唤醒词 / ASR / LLM / TTS / 视觉 / 情感。每类模型有自己的延迟、成本、隐私要求。

E.16 类模型独立选型

类别	D2 选型	D3 选型	云端选型	关键决策
唤醒词 KWS	WakeNet（ESP-IDF 内置）	OpenWakeWord	—	必须本地
ASR 语音识别	云端为主 + 本地兜底	本地 Whisper-tiny + 云端兜底	阿里 Paraformer / Whisper-Turbo / Distil-Whisper	儿童语音必须微调，WER 提升 5-10%
LLM 对话	完全云端	本地 Qwen3-1.7B/4B + 云端补充	Qwen-Plus / 豆包 Pro / DeepSeek-V3	国产 LLM 比 OpenAI 便宜 50-100 倍
TTS 语音合成	云端为主	本地 VITS + 云端高质	CosyVoice（音色克隆）/ Edge TTS	每个 IP/Persona 独立音色
视觉模型	不装	YOLO11n + MediaPipe	Qwen2-VL / Moondream 2	体感游戏用 MediaPipe Pose
情感识别	—	Wav2Vec2-SER + FER+	—	PAD 三维持续追踪

E.2云端 LLM 成本对照

模型	千次输入 token（¥）	千次输出 token（¥）	评价
OpenAI GPT-4o	≈¥18	≈¥72	不推荐 · 成本不可承受
OpenAI GPT-4o-mini	≈¥1.1	≈¥4.3	备选
Qwen-Plus（阿里）	¥0.08	¥0.20	⭐ 推荐主力
豆包 Pro（字节）	¥0.0008/k	¥0.002/k	⭐ 最便宜
DeepSeek-V3	¥0.0005/k	¥0.002/k	⭐ 性价比之王

¥0.001/ 次对话

Qwen-Plus 单次成本

¥1.8/ 月 / 用户

日均 100 次对话云端成本

5.5%

百万用户时 AI 成本占收入比

100x

国产 LLM 相比 OpenAI 成本优势

E.3推理框架选型

位置	框架	选择理由
ESP32-S3 端	TFLite Micro	仅 KWS、轻量分类
RK3588 端	llama.cpp + RKNN-Toolkit	NPU 直接调用，TinyLlama 1.1B 实测 10-15 tok/s
Jetson Orin 端	TensorRT-LLM	NVIDIA 生态最优
跨设备统一抽象	ONNX Runtime	作为兜底标准
云端高并发	vLLM	HuggingFace TGI 已停止维护，业界已转向 vLLM
云端 Agent 路径	SGLang	RAG / 多轮对话优化

E.4三层算子放置策略

同一 AI 功能在不同硬件上跑法不同。以"语音对话"为例：

基座层

VAD 边 / ASR 云 / NLU 云 / DM 云 / TTS 云缓存+边播放

几乎全部云端，弱网降级为本地预设回复。云端 >500ms 时边端先播"嗯..."填充音掩盖延迟。

沉浸感策略：填充音

情感层

VAD/ASR/NLU 边 / DM 雾或云（中模型）/ TTS 边

简单交互全本地，复杂剧情走云。边端永远在 200ms 内有反应，复杂回答可分两段说。

200ms 响应底线

机器人

全链路本地 / 云端只做长程记忆和模型更新

端到端延迟 <300ms，支持打断式对话。

完全本地

家庭多设备

机器人当雾节点，帮小精灵分担算力

家长不知道哪只玩偶"聪明"，它们看起来一样有智商。整体延迟和功耗都下降。

雾计算自动调度

E.5视觉 AI 完整栈 · 从识别到 VLA

视觉是 AIGG 从"会聊天的 AI 玩偶"跃升为"懂世界的 AI 伙伴"的关键能力。没有视觉，玩偶只能听见你；有了视觉，它能看见你画的画、识别你养的真宠物、看出你今天表情有点累、跟你的手势互动。视觉栈分四层：底层视觉 → VLM 视觉语言 → VLA 视觉语言动作 → 多模态融合。

E.5.1 视觉能力四层架构

L1 · 底层

传统计算机视觉 · 识别 / 检测 / 跟踪

人脸识别、手势识别、物体检测、姿态估计。模型小（5-50MB），延迟低（<50ms），可全本地。是基座层和情感层的视觉核心。

YOLO / MediaPipe / MobileFaceNet

L2 · VLM

视觉语言模型 · 看图说话 / 视觉问答

"这是什么？""我画的猫怎么样？""桌上有几张红色的卡片？" 让玩偶能用语言描述视觉内容。中等模型 1-7B，可本地部署到 D3 档（RK3588）以上。

Moondream / Qwen2.5-VL / SmolVLM

L3 · VLA

视觉-语言-动作模型 · 看了就能行动

"把红色的卡放到我面前"——VLA 直接从视觉+指令生成动作序列。机器人前沿，需要 D4 档算力或云端。AIGG 锚定层（双足机器人）的核心。

RT-2 / OpenVLA / π0 / GR00T N1 / Helix

L4 · 融合

多模态融合 · 视觉 + 语音 + 触觉 + IMU

同时看见你说"拿这个"+ 看着你指的方向 + 感觉你抓握的力度——融合所有感知通道做联合决策。

所有信号→单一上下文

E.5.2 VLM 选型矩阵 · 边缘到云端

模型	参数量	4-bit 大小	跑在哪	典型能力	AIGG 用途
Moondream2	1.8B	~1GB	RK3588 / Jetson Orin Nano	计数、图表理解、object detection	情感层旗舰款本地视觉问答
SmolVLM	500M / 2B	~300MB-1.2GB	Web 浏览器都能跑	轻量场景描述、OCR	创作者工具内嵌 / 简单识别
Florence-2	0.23B / 0.77B	~100-400MB	RK3588 流畅	检测+caption+OCR 多任务	NFC + 视觉双重道具识别
Qwen2.5-VL-3B	3B	~1.8GB	Jetson Orin / 云	视频理解·125K context·中文好	机器人深度视觉问答
Qwen2.5-VL-7B	7B	~4GB	Jetson Orin Thor / 云	SOTA 开源视觉理解	云端高级视觉路径
Gemma 3 4B	4B	~2.5GB	Jetson Orin / 云	140+ 语言·OCR 强	多语言市场（出海）
Qwen2.5-VL-72B / GPT-4o / Gemini 2.5	72B+	云端	云	SOTA 全场景	UGC 创作者工具复杂理解

AIGG 视觉 VLM 三档策略：

D2 基座层 · ESP32-S3 跑不动 VLM——视觉走"YOLO 本地+VLM 云端"路径。摄像头拍一张图压缩上传，云端 Qwen2.5-VL 处理。
D3 情感层旗舰 / 轮式机器人 · 本地跑 Moondream2 或 Florence-2，云端 Qwen2.5-VL 兜底。"拍照评价孩子的画"这种轻量任务全本地。
D4 双足机器人 · 本地跑 Qwen2.5-VL-3B 或 7B，云端只做模型更新。完全自主。

E.5.3 VLA · 视觉-语言-动作模型 · 机器人前沿

VLA 是 2023-2025 年机器人 AI 最大突破——从"识别物体 + 单独写控制策略"变成"视觉+指令直接生成动作序列"的端到端模型。这是 AIGG 锚定层（双足机器人）和场景层（轮式机器人）的核心 AI 能力。

VLA 模型	来源	参数量	开源	关键特性
RT-2	Google DeepMind 2023	5B / 55B	否	VLA 范式开创者·涌现推理能力
OpenVLA	Stanford 2024	7B	✓ 开源	970K 真实机器人演示·可消费级 GPU 微调
Octo	UC Berkeley 2024	27M / 93M	✓ 开源	极轻量·边端友好
π0 (Pi-Zero)	Physical Intelligence 2024	~3B	✓ 开源	flow-matching·50Hz 高频·折衣服级精细操作
GR00T N1	NVIDIA 2025	未公开	✓ 权重公开	专为人形机器人·sim2real 流程齐全
Helix	Figure AI 2025	未公开	否	双系统架构·首个高频控制人形上半身
Gemini Robotics	Google DeepMind 2025	未公开	On-Device 版	Gemini 2.0 backbone·折纸玩牌级灵巧
SmolVLA	Hugging Face 2025	450M	✓ 开源	极小但性能接近 OpenVLA·LeRobot 数据

AIGG 应该立即跟进 VLA 但不要自研基础模型——这是 NVIDIA / Google / Physical Intelligence 这种公司花数十亿美元做的事。

正确策略：

P0 · 现在：传统视觉（YOLO + MediaPipe）+ VLM 云端调用——满足基座层和情感层
P1 · 12 个月内：本地 VLM（Moondream2 / Florence-2）部署到 D3 档·轮式机器人用 Octo 或 SmolVLA 做基本视觉操作
P2 · 18-24 个月：双足机器人 fine-tune GR00T N1 或 OpenVLA·配合 BP 锚定层 ¥30 万产品
不要做：自己从头训练 VLA 基础模型——数据、算力、人才任何一项都不够

E.5.4 VLM/VLA 在 AIGG 各场景的具体应用

场景	视觉能力需求	选型	价值
识别孩子的画	VLM 看图说话	云端 Qwen2.5-VL	"哇，你画的小狗有蓝色的耳朵真有创意！"——比纯语音陪伴温度高 10 倍
识别真实物品（玩偶认识你的杯子）	VLM + 长程记忆	本地 Florence-2 + 云 VLM	"你的红色水杯今天没在桌上呢"——让玩偶懂你的家
识别情绪表情	FER+ 专用模型	本地 5MB 模型	"今天看起来不太开心呀"——情感陪伴的眼睛
识别道具卡（视觉作为 NFC 备份）	YOLO 自训练 + OCR	全本地	无 NFC 时仍可识别·扩大道具兼容性
识别手势 / 体感动作	MediaPipe Pose / Hands	全本地 CPU	跳绳计数·瑜伽姿势·健身游戏裁判
视频通话陪伴（家长远程参与）	实时视觉流	商业 WebRTC	家长出差陪孩子玩游戏
识别真宠物（"你养的小狗"）	动物识别 + 个体识别	云端微调模型	玩偶认识你的真宠物·跨虚实关系
读绘本 / 教材	OCR + VLM	本地 Florence-2	"我们一起读这个故事"·教育市场关键能力
轮式机器人导航避障	立体视觉 / ToF + SLAM	RK3588 NPU	商场 / 乐园场景必装
双足机器人灵巧操作	VLA · π0 / GR00T	Jetson Orin Thor	"把杯子拿到桌上"自然指令直接执行

E.5.5 视觉护栏 · 儿童安全的硬底线

视觉模型用在儿童产品上有极高的内容安全要求。Google 在 2025 年推出 ShieldGemma 2 — 专门做多模态安全过滤的开源模型，把图像 + 内容策略作为输入输出"安全/不安全"判断。

关 1 · 摄像头开关默认关闭——家长 APP 主动开启才工作，物理快门可选
关 2 · 输入预过滤——ShieldGemma 2 或类似模型过滤敏感画面（不上云端 LLM）
关 3 · 处理本地优先——能本地处理的不上云·只摘要+脱敏后上传
关 4 · 输出后过滤——VLM 生成的描述再过一次儿童内容护栏
关 5 · 家长可观察——家长 APP 可看到玩偶"今天看见了什么"的脱敏摘要日志

E.5.6 视觉相关的协同涌现 · 单纯视觉做不到、协同做得到的事

视觉模型很厉害，但 AIGG 的真正价值是多设备 + 多模态视觉协同——这是单玩偶视觉做不到的：

多视角融合：客厅多个玩偶各有摄像头，从不同角度看同一场景，融合后玩偶"知道"完整布局
视觉接力：A 玩偶看见 NFC 卡放下了 → B 玩偶（带屏幕）显示对应剧情·两玩偶配合演戏
视觉时序协作：游戏中 A 玩偶看见你举手 → 触发 B 玩偶喊"你出招了"——分布式感知
跨设备主体识别：客厅 A 玩偶认识你 → 你走到卧室 B 玩偶 → 立即知道是你来了，无需重新认识
视觉 + 雾节点 LLM：基座层精灵看不懂复杂画面 → 拍照传给雾节点机器人 → 机器人本地 VLM 处理 → 回复传回精灵

E.5.7 周边道具自身视觉的处理路径 · 视觉数据流的多种来源

视觉数据不只来自"主机摄像头"，也来自"周边道具的摄像头"——这改变了视觉数据流的来源拓扑。AIGG 必须把所有视觉来源统一到一套处理管线下：

关键设计原则：

每个视觉来源独立标注——主机看到 / 词典笔看到 / 扩展摄像头看到，要在数据流中区分清楚（影响隐私边界、责任归属、推理可信度）
本地预处理优先——能在道具本地处理的不传输原始图像（OID 笔只传 ID，词典笔只传 OCR 结果，扩展摄像头压缩+加密后传）
统一脱敏管线——任何来源的视觉数据出户前都要走同一个脱敏管线（雾节点责任）
来源不一致时的优先级——主机视觉 + 道具视觉冲突时（比如主机看见的和词典笔扫的不一样），由 LLM 综合判断而不是简单取一
儿童视觉道具的特殊保护——胸针/项链型摄像头戴在孩子身上 24 小时，必须有更严格的"何时录、何时不录"策略

§ 06

软件系统架构 Software Systems

需求簇 F-J · 23 条

AIGG 软件层不是一套，而是 5 套各自独立又必须互联的子系统。每个子系统的选型、协议、互联方式都需要明确。其中互联协议层（E）是最被低估、但工程难度最高的一层。

F5 子系统总览

A · 端

Device Firmware · 端上系统

传感器采集、执行器控制、本地推理、组网。RTOS = ESP-IDF/FreeRTOS（D2）/ Linux（D3+）。OTA 双分区 + 回滚。

C/C++/Rust · 4-8 人

B · 雾

Home Hub · 雾节点系统

主机玩偶兼任。多设备编排、本地缓存、隐私边界。NanoMQ broker + SQLite + Redis Lite。GDPR 合规屏障。

C++/Go · 2-3 人

C · 端

APP System · 移动 / Web

家长 APP（P0）/ 孩子 APP（P1）/ 创作者 Web 工具（P1）/ 管理后台（P0）。React Native + Expo。

RN + Next.js · 4-6 人

D · 云

Cloud Backend · 后端系统

阿里云 IoT 入站 + EMQX 业务总线 + K8s 微服务 + vLLM 推理 + 多数据库。

Go/Python · 8-15 人

E · 协议

Connectivity Protocols · 互联协议

五类互联：设备↔设备（家庭内）/ 主机↔周边道具 / 设备↔APP / 设备↔云端 / 设备↔蜂窝网络。配对 Matter 1.4.1 兼容 + MQTT 5.0 over TLS + WebRTC（音视频）+ 多识别方式平等并行。

架构师 · 1-2 人

G五类互联协议

场景	协议主选	协议备选	关键问题
设备 ↔ 设备（家庭内多玩偶）	BLE Mesh（信令） + Wi-Fi Direct（数据流）	Thread（远期）	同步精度、Mesh 自愈、QoS 分通道
主机 ↔ 周边道具（识别 + 控制）	NFC（无源卡片） + BLE（有源道具） + IR（对战玩具）	视觉识别 / 声波识别 / RF 固定码	多识别方式平等并行抽象
设备 ↔ APP	BLE GATT（配对） + MQTT over WSS（运行时）	WebRTC（音视频）	配对易用性、安全
设备 ↔ 后端云	MQTT 5.0 over TLS（家庭 Wi-Fi）	HTTPS（兜底）	弱网保活、消息持久化
设备 ↔ 蜂窝网络（出门 / 独立机器人）	LTE Cat-1bis（当前主流） + 5G RedCap（2025+ 升级路径）	LTE-M / NB-IoT（低功耗低带宽场景）	eSIM 安全、流量计费、多运营商管理

五类互联是五类本质不同的工程问题，不能混为一谈：① 设备↔设备解决多玩偶协同；② 主机↔周边解决"卡带经济"的物理映射；③ 设备↔APP 解决用户控制；④ 设备↔云解决 AI 推理与持久化；⑤ 设备↔蜂窝解决离开家庭 Wi-Fi 的连接。每一类都有独立的协议栈、安全模型、QoS 策略。架构层把它们抽象成五个并列的 Connectivity Adapter，上层应用按需调用。

HQoS 四类通道

家庭里要同时跑控制信令、语音流、游戏状态同步、文件下载——延迟/带宽需求差异极大，必须分通道。

通道	用途	延迟要求	主要走
1. 控制信令（硬实时）	道具触发、按键事件、同步时钟	<20ms 不能丢	BLE / NFC + ACK 多无线电冗余
2. 多模态媒体流（软实时）	语音、视频、实时音效	<100ms 可丢包	Wi-Fi Direct + FEC
3. 状态同步（尽力而为）	CRDT 增量、计分、玩家状态	<500ms 本地优先	Wi-Fi 或 BLE Mesh
4. 大文件（低优先）	OTA、模型更新、剧情资源包	延迟无感，断点续传	Wi-Fi 或 4G，仅充电时占带宽

IMQTT Topic 命名空间

把"家庭"作为一等公民概念（family_id），不只是单个设备。

# 设备上行（Device → Cloud）
ap/v1/{tenant}/{device_id}/up/telemetry          # 心跳、状态
ap/v1/{tenant}/{device_id}/up/event              # 用户互动事件
ap/v1/{tenant}/{device_id}/up/ai/asr             # ASR 流式上传
ap/v1/{tenant}/{device_id}/up/data/{type}        # 数据飞轮回流

# 设备下行（Cloud → Device）
ap/v1/{tenant}/{device_id}/dn/cmd                # 控制命令
ap/v1/{tenant}/{device_id}/dn/ai/llm             # LLM 流式回复
ap/v1/{tenant}/{device_id}/dn/ai/tts             # TTS 音频流
ap/v1/{tenant}/{device_id}/dn/activity/load      # 推送活动 IR
ap/v1/{tenant}/{device_id}/dn/ota/{channel}      # OTA 通知

# 设备影子（Device Shadow）
$shadow/{device_id}/desired                       # 期望状态
$shadow/{device_id}/reported                      # 上报状态
$shadow/{device_id}/delta                         # 差量

# 多设备协同（家庭命名空间）
ap/v1/{tenant}/{family_id}/family/sync             # 家庭内同步
ap/v1/{tenant}/{family_id}/family/host_election    # Host 选举

# 创作者后台
ap/v1/{tenant}/creator/{author_id}/up/ir/submit    # IR 提交
ap/v1/{tenant}/creator/{author_id}/dn/review        # 审核结果

J云端核心服务架构

设备 → 阿里云 IoT 平台（接入层）→ EMQX 集群（业务总线）→ K8s 微服务集群

业务后端微服务（K8s）
├─ 用户服务（Go/Java）
├─ 设备管理服务（Go）
├─ 活动 IR 服务（Python）
├─ AI Gateway（Python · LLM 路由 + 缓存）
├─ 内容市场服务（Go）
├─ 创作者经济（Go）
├─ 数据飞轮服务（Python）
└─ 计费服务（Java）

数据存储层
├─ PostgreSQL（业务主数据库）
├─ Redis（缓存 + 实时状态）
├─ MongoDB（活动 IR、剧情）
├─ ClickHouse（用户行为分析）
├─ Milvus（向量检索 · L2/L3 记忆）
├─ MinIO/OSS（资源 + 录音备份）
└─ Kafka（事件流）

AI 推理层
├─ vLLM 集群（自建大模型）
├─ 阿里 Qwen-Plus / 豆包（云 LLM 主力）
├─ 阿里 ASR / Paraformer（云 ASR）
├─ CosyVoice / Edge TTS（云 TTS）
└─ Triton Server（视觉模型）

支撑层
├─ APISIX（API 网关）
├─ Nacos（服务注册）
├─ Prometheus + Grafana（监控）
├─ ELK Stack（日志）
└─ Sentry（错误追踪）

§ 07

完整需求清单 Atomic Requirements

141 条 · 14 簇

每条需求都有目标 + 衡量标准 + 不要做什么。三件齐才算需求，少任一件均为愿景。优先级：P0 = MVP 必须 · P1 = 12 个月内必须 · P2 = 预留扩展。

本章列出 12 个工程需求簇（A-L 共 108 条）。第 13 个需求簇——⊙ 用户场景簇（11 条）——按其作为"所有需求起点"的特殊性质，已嵌入§00 用户场景与体验愿景章节末尾，不在本章重复展示。

100

P0 / MVP 必须

P1 / 12 个月内

P2 / 远期预留

需求簇

A核心抽象（8 条）

ID	需求	衡量标准	优先
A1	统一抽象 Role × Activity不分游戏 vs 陪伴运行时	所有玩法用一套抽象描述不做"游戏运行时"和"陪伴运行时"的二分 Persona 是身份，Player/Director 是位置	P0
A2	双引擎协作规则引擎 + AI 引擎按比例混合	活动 IR 显式声明两者比例和边界不做纯规则（无趣）也不做纯 AI（不可控）	P0
A3	三层 IRScene / Logic / Primitive	YAML/JSON·LLM 可生成·静态可校验不为不同模式定义不同 IR 格式	P0
A4	三种同步范式Authoritative / Lockstep / Eventual	活动 IR 显式声明不让平台"自动选"同步范式	P0
A5	三层记忆Working / Episodic / Semantic	L1 断电即失·L2 30 天·L3 永久脱敏不无限增长·不上传未脱敏数据	P0
A6	两段式放置规划编译期穷举 + 运行时查表	10-20 种典型组合预生成 plan 不做实时全局重规划	P0
A7	NUI 多模态交互作为一等抽象	活动 IR 中交互方式显式声明（语音/视觉/触觉/手势/姿态/表情/空间）·多通道融合统一意图理解不把某种交互方式硬编码为默认无屏幕场景与有屏幕场景同一抽象	P0
A8	游戏性七维度作为可衡量目标	每个活动 IR 显式声明在 7 维度上的预期表现：动态生成内容比例·实时反馈延迟·自适应难度策略·声光电协同·人格连续性·剧情张力·跨设备协奏度不让"游戏好玩"停留在主观判断每个维度对应可量化的工程指标和评估方法	P0

B玩法覆盖（9 条）

ID	需求	衡量标准	优先
B1	6 大 Activity ClassCasual / Hybrid Casual / Mid-core / Companion / Sports & Active / Chance & Collect	单归属性原则，每活动唯一所属 Class	P0
B2	25 个 Genre覆盖主流玩法	Match-3 / RPG / Card Battle / Pet Care / Fitness / Blind Box 等	P0
B3	支持 27 类玩法桌游到健身环到情绪日记	不为每类玩法单独写引擎	P0
B4	多维 TagsCaillois × MDA × Aarseth × IP × AI 角色	主分类唯一·次维度多标签	P0
B5	3 种结构类型强规则 / 混合 / 弱规则	不强行让弱规则套用强规则同步机制	P0
B6	3 种时间尺度短时 / 中时 / 长线	不让长线活动绑定单次会话生命周期	P0
B7	3 种参与规模单人 / 多人本地 / 跨家庭	本地 P0 · 跨家庭 P2	P0
B8	UGC 用户能创作并发布一句话+道具组合	私人分享 vs 公开发布两档不让 UGC 直接调底层原语	P1
B9	UGC 热门反向驱动实体 SKU社区数据回流供应链	SHEIN 式快反·7 天打样 30 天量产	P2

CAI 角色（8 条）

ID	需求	衡量标准	优先
C1	7 个一级角色分类Player / Opponent / Helper / Director / Narrator / Persona / Author	不引入新角色不走 RFC 每个角色都有学术对应（Greimas/Bartle/Warpefelt/Bouquet）	P0
C2	所有角色共享 Agent 框架区别只在配置	权限 / 记忆 / 原语调用不同不为每个角色写独立运行时	P0
C3	Persona 是身份 vs 位置层分离	Persona 进入活动临时占位不把 Persona 绑死到某个位置	P0
C4	同一 AI 实例可在角色间切换	"小宝"早上 Helper、下午 Director、晚上 Persona	P0
C5	角色切换/占位用户可感知	"今天小宝当裁判哦"显式宣告不做隐式无感切换（用户会困惑）	P0
C6	角色协作 8 条硬规则	一活动一 Director·Persona 占位需明示·Persona 倾诉时其他角色静默·Author 永远云端	P0
C7	Persona 持续性人格跨活动保持性格、口头禅、偏好	BP "16 种性格养成"落地不每次重新生成人格	P0
C8	角色用户实证可分辨Warpefelt 方法论	100 人测试，角色辨识度 ≥70%	P1

DPersona 身份与人格（5 条）

ID	需求	衡量标准	优先
D1	Persona 身份与设备解耦云端权威唯一身份	玩偶丢失/损坏角色不丢不把养成进度存玩偶里	P0
D2	三层记忆架构 + 主动遗忘L1/L2/L3 + 用户一键忘记	L1 断电即失·L2 30 天·L3 永久脱敏	P0
D3	主动唤起的克制策略	时间/情境/事件三种触发·无回应自动衰减·单日打扰预算·家长可调	P0
D4	情绪状态有持续性PAD 三维建模	玩偶/用户情绪都建模·跨天演变·影响声线/灯光/反应速度	P1
D5	离线时角色继续生活云端轻量模拟	每小时一次·生成事件流·用户回家时玩偶能"讲述刚才" 不让 AI 完全自由生成（要走模板）	P1

E硬件层（15 条）

ID	需求	衡量标准	优先
E1	主控芯片选型按档分层D1/D2/D3/D4	基座层 ESP32-S3 · 情感层 ESP32-S3+协处理器或 RK3576 · 机器人 RK3588 · 双足 Jetson Orin	P0
E2	4 层硬件运行同一活动 IR	同一活动 IR 在精灵/宠物/轮式/双足都能跑（按硬件能力降级）	P0
E3	上层不感知具体硬件型号通过 Capability Descriptor 抽象	新型号上市不改上层代码上层不直接 import 设备 SDK	P0
E4	必装传感器套件	所有玩偶必装：IMU + 麦克风 + LED + 至少一种周边接入方式（NFC / BLE / 视觉任选）	P0
E5	选装传感器分级	视觉/ToF/4 麦阵列按产品层级选配	P0
E6	Chiplet 模块化设计（8 类）	主控/语音/视觉/触觉/显示/运动/设备互联/周边接入·标准板对板接口·新 SKU 7 天打样	P0
E7	电源管理分级	基座层 1500mAh / 情感层 3000mAh + 无线充 / 机器人 AC 或大容量	P0
E8	设备互联多协议（设备↔设备 / 设备↔云）	BLE 5.x（必）+ WiFi（必）+ Thread（远期）+ 蜂窝模组（按 SKU 选配，见 E11）不把"互联"和"周边识别"混为一谈	P0
E9	时钟同步精度 ≤10ms	用 PTP-like 协议同步家庭时钟，配合提前调度实现 ≤50ms 灯/音/震精度	P0
E10	BOM 成本约束	基座层 ≤$25·情感层 ≤$80·机器人 ≤$1000 蜂窝选配款 BOM 上浮 $5-25 视档位而定	P0
E11	蜂窝物联网三档支持玩偶/机器人/周边设备的远程连接	不带 / 选配（LTE-M / Cat-1bis）/ 必装（5G RedCap）三档·eSIM 替代实体 SIM·多运营商管理不把蜂窝当"高端选配"——出门场景必需 BP 海外渠道（Walmart 等）必须考虑无家庭 Wi-Fi 场景	P1
E12	周边道具接入抽象层多识别方式平等并行	NFC / BLE / IR / 视觉 / 声波 / RF 固定码抽象到统一`peripheral_recognition`协议不把任何一种识别方式神化由 IP 合作方/创作者按道具特性自由选择	P0
E13	周边道具 4 大形态全覆盖无源 / 结构化 / 电子 / 机动	每种形态有标准化硬件参考设计·BOM 数据明确不只做 NFC 卡片不让任何一种形态成为孤儿	P0
E14	周边道具发布节奏月-季-年三档	月度新品 NFC 卡 + 季度联名电子道具 + 年度限量加密款·SHEIN 式快反不让周边变成"一次性附赠品"	P1
E15	大型互动装置开放接入游乐场 / 商场场景	动画恐龙 / 投影地面 / AR 装置等通过开放 API 接入·不自己制造不与传统装置厂商竞争做"主机+周边"协议层的统一调度	P2

FAI 计算与云端协同（5 条）

ID	需求	衡量标准	优先
F1	同一 AI 功能多版本tiny/small/medium/cloud	平台自动选版本不在一个版本里硬塞所有硬件	P0
F2	关键功能断网时降级	本地 fallback·规则引擎完全本地·AI 引擎可本地降级	P0
F3	规则引擎完全本地运行	毫秒级响应·确定性·不依赖云不把规则判定放云端	P0
F4	AI 引擎可跨节点切换	200-500ms 切换·填充音掩盖延迟不追求带状态热迁移	P1
F5	沉浸感预算关键时刻不能卡	同步精度 ≤50ms·响应延迟 ≤300ms·断流次数 ≤1次/小时	P1

G多设备协同与组网（6 条）

ID	需求	衡量标准	优先
G1	家庭内自动组网	2-6 设备·开机即被发现·无需 APP 配对·任意玩偶可作协调者	P0
G2	单设备故障不中断活动	协调者掉线 200ms 内被接管·状态零丢失·用户基本无感	P0
G3	关键时刻同步精度 ≤50ms	灯/音/震多设备同步精度	P0
G4	多 AI 角色协同不撞人格	多个玩偶各自有人格，遵守 8 条角色协作硬规则	P0
G5	QoS 4 类分通道传输	控制信令 / 媒体流 / 状态同步 / 大文件四类独立通道	P0
G6	异地玩偶联机跨家庭	云端中转·延迟 <200ms	P2

HAI 模型与软件栈（15 条）

ID	需求	衡量标准	优先
H1	6 类 AI 模型独立选型KWS/ASR/LLM/TTS/Vision/Emotion	各自有专门管理流水线不用"一个全能多模态"解决所有	P0
H2	国产云 LLM 优先	MVP 主力对接 Qwen-Plus / 豆包 / DeepSeek，不依赖 OpenAI	P0
H3	端侧 LLM 本地兜底RK3588+ 必须能跑 1B+ 模型	本地 Qwen3-1.7B 或更大	P0
H4	儿童语音 ASR 微调	用儿童语音数据集 LoRA 微调，WER 提升 5-10%	P1
H5	TTS 多音色支持每个 IP/Persona 独立声音	CosyVoice 克隆主声音 + VITS 边端 fallback	P0
H6	视觉模型分级部署	YOLO11n（基础）→ Moondream/Qwen-VL（高端）	P1
H7	推理框架选定	边端 llama.cpp + RKNN，云端 vLLM	P0
H8	Agent 框架自研	不依赖 LangChain，参考 CrewAI 哲学自研	P0
H9	内容安全 Day 1 集成	文本/图像/语音三道护栏（阿里绿网/腾讯天御）	P0
H10	数据飞轮工程化	脱敏 → 弱监督 → LoRA → OTA 全流程自动	P1
H11	模型 OTA 推送基础设施	每个产品能独立更新模型	P0
H12	A/B 测试框架	模型迭代用真实流量验证	P1
H13	LLM 路由策略	根据复杂度路由到本地或云、不同档次模型	P0
H14	LLM 缓存机制	高频 prompt 结果缓存，降低成本	P1
H15	端侧模型量化	4-bit (W8A8) 标准·关键场景 BF16	P0

I软件系统架构（19 条）

ID	需求	衡量标准	优先
I1	端上 OTA + 回滚	A/B 双分区，失败自动回滚	P0
I2	端上数据加密本地存储 AES-256	密钥由设备 EFUSE 派生·防止固件被刷	P0
I3	雾节点自动选举	任意 D2+ 玩偶可担任·断开 200ms 内重选	P0
I4	雾节点本地缓存与降级	断网时仍可玩 70% 活动	P0
I5	家长 APP 跨平台	iOS + Android 同等体验·React Native + Expo	P0
I6	创作者 Web 工具	浏览器内可创作、模拟、发布·Next.js	P1
I7	后端微服务架构K8s 部署	水平可扩展·阿里云 ACK	P0
I8	MQTT 设备总线EMQX 集群	单集群支持 100 万设备	P0
I9	设备配对兼容 Matter 1.4.1	配对流程符合 Matter 设计·NFC onboarding 兼容	P0
I10	五类互联协议栈	设备↔设备 / 主机↔周边 / 设备↔APP / 设备↔云 / 设备↔蜂窝五套独立协议栈，五个并列 Connectivity Adapter	P0
I11	Topic 命名空间设计	tenant / family / device 三层·支持多租户	P0
I12	设备影子机制	desired/reported/delta·离线时缓存命令	P0
I13	实时音频流通道	WebSocket + Opus·延迟 <300ms	P0
I14	远程视频陪伴	商业 WebRTC SDK 集成（声网/即构）	P1
I15	多模型路由	根据复杂度自动决定本地/云	P0
I16	隐私脱敏代理雾节点责任	出户数据自动脱敏	P0
I17	监控与告警	设备掉线·AI 错误·内容安全实时告警	P0
I18	A/B 测试框架（家庭维度）	可针对家庭/活动维度做实验	P1
I19	多区域部署	国内/海外独立部署·数据不出境	P1

J数据·隐私·合规（5 条）

ID	需求	衡量标准	优先
J1	儿童数据合规COPPA/GDPR-K	原始语音/人脸不上云·家长授权·可导出可删除·平台审计可追溯	P0
J2	Persona 倾诉模式隐私加固	倾诉内容本地处理优先·其他角色静默·永不商业化不把树洞数据用于推荐/训练	P0
J3	UGC 内容审核 4 闸管线	语法 / 安全 / 仿真 / 真人 Beta·私人前两闸·公开全过	P1
J4	数据飞轮支撑模型迭代	脱敏后回流·用户/环境/动力学三类分管不混合三类数据训练	P1
J5	三层记忆主动遗忘	L1→L2 时丢 90% 细节·L2→L3 时丢 95%·用户可一键忘记	P0

K创作生态（5 条）

ID	需求	衡量标准	优先
K1	头部 IP 联名活动上线	6 个授权 IP 已签·每月新增 IP 内容能力	P0
K2	PGC 工作室高效产出	可视化创作工具·L2 模板可复用·一活动立项到上架 ≤4 周	P1
K3	UGC 用户零代码创作	自然语言 + 道具组合 → AI Author 翻译为 IR·≤5 分钟出可玩版本	P1
K4	AI 自身可创作活动Author 角色	根据用户兴趣自动生成新活动不让 AI 完全自由生成（要走模板）	P1
K5	L1 原语集稳定演进	11 个原语·新增走 RFC·向后兼容·UGC 不能直接调 L1	P0

L模拟器（10 条）

ID	需求	衡量标准	优先
L1	模拟器 = 平台运行时虚拟版本	同一活动 IR 在模拟器和真实玩偶上行为一致不做模拟器专属"特殊版本"逻辑	P0
L2	支持纯 LLM 模拟玩家行为	"自动跑 100 局"AI 模拟玩家完整玩通	P0
L3	支持人类用户接入	创作者自己当玩家在 web/APP 里玩	P0
L4	模拟虚拟设备组合	模拟"2 精灵 + 1 机器人"等环境	P0
L5	模拟弱网/断网/单设备故障	主动"断网"看活动如何降级	P0
L6	模拟不同 AI 角色行为	同一活动在 Director=温柔 vs Director=严厉表现不同	P1
L7	输出可玩性指标报告	平均时长·完成率·卡死率·单一胜者率·玩家情绪曲线	P0
L8	录制 + 回放	模拟一局后能回放·定位问题环节	P1
L9	时间加速	长线养成"快进 30 天"看长期效果	P1
L10	模拟器与发布管线集成	通过模拟器报告的活动直接进 4 闸校验"闸 3 仿真"	P0

V视觉与具身智能（16 条）

ID	需求	衡量标准	优先
V1	视觉是产品分级的关键差异化	基座层无视觉·情感层选配·机器人必装不在基座层强加摄像头·BOM 不允许	P0
V2	四类视觉硬件分场景部署	RGB 单目 / 立体双目 / ToF / 结构光·按产品层级和场景选型	P0
V3	情感层旗舰款 VLM 本地部署	本地 Moondream2 或 Florence-2·D3 档以上·拍照评价、看图说话本地完成	P1
V4	云端 VLM 优先国产	主力 Qwen2.5-VL（阿里）·备选 GPT-4o·豆包视觉不依赖单一国外服务	P0
V5	基础视觉能力本地化	YOLO 物体检测 + MediaPipe 姿态 / 手势·完全本地·延迟 <100ms	P0
V6	视觉护栏 5 道关	物理快门·输入预过滤·处理本地优先·输出后过滤·家长可观察日志	P0
V7	摄像头默认关闭	家长 APP 主动开启才工作·物理快门可选不为体验便利牺牲隐私	P0
V8	情绪识别本地化	FER+ 专用模型·5MB 本地推理·情绪数据不出户	P0
V9	轮式机器人 SLAM 导航	立体双目 + IMU·室内厘米级精度·商场/乐园场景必备	P1
V10	VLA 用于双足机器人	基于 GR00T N1 / OpenVLA / π0 微调·不自研基础模型·跟进开源	P2
V11	视觉协同涌现多设备视觉融合	多视角融合·视觉接力·视觉时序协作·跨设备主体识别不让单玩偶视觉是孤岛	P1
V12	视觉 + 雾节点 LLM 路径	基座层精灵拍照→雾节点 VLM 处理→回复传回·路径透明	P1
V13	周边道具自身视觉 · 三种类型支持	OID 光学识别笔（¥50-200）·CMOS 扫描翻译笔（¥349-999）·扩展摄像头模组（¥30-300）不只让主机有视觉·周边也能"看"	P0
V14	兼容 OID 标准 · 教育市场关键	支持松翰 SN9P 系列 / OID2 / OID3 协议·兼容已有点读教材生态不另起炉灶发明新光学码	P1
V15	扩展摄像头 · 模块化视觉	主机 USB-C / BLE 协议接收外接摄像头·摄像头单独售卖¥99-299·跨玩偶可拆卸这是 AIGG 独有创新：视觉作为"卡带"售卖	P1
V16	视觉数据来源标注 · 隐私边界	每张图片来源（主机/词典笔/扩展摄像头）独立标注·不同来源走不同隐私策略儿童胸针型摄像头特殊保护	P0

§ 08

未决策事项 Open Decisions

18 个判断

架构设计已经收敛，但有 18 个产品/工程判断需要拍板，否则下一步无法启动。这些不是技术问题，是需要结合市场、团队、资金做的战略选择。

MVP 范围 · 5 个

D-01

MVP 硬件起点

第一只产品上市时硬件覆盖范围。决定团队 6 个月做什么。

A. 只做基座层精灵（¥199-399）
B. 基座层 + 情感层双层（推荐）
C. 以已出货的轮式机器人为主体

D-02

MVP 玩法/角色覆盖

第一批活动的产品形态。

A. 主推 3-5 类强规则游戏
B. 主推角色陪伴 + 少量轻游戏
C. 双引擎协作验证 - 2 类规则 + 2 类陪伴 + 4 种核心角色（推荐）

D-03

UGC 在 MVP 的地位

UGC 是 BP "物理 Roblox" 叙事核心，但工程量大。

A. MVP 只做 PGC，UGC 半年后开放
B. MVP 内置 UGC 工具但只支持私人分享（推荐）
C. MVP Day 1 就开放 UGC 公开发布

D-04

情感层档位

D2（云端为主）vs D3（本地 LLM）的取舍。

A. 全 D2（ESP32-S3）
B. 全 D3 入门款（RK3576）
C. 双线产品：入门 D2 ¥399 + 旗舰 D3 ¥1999（推荐）

D-05

摄像头是否基座层标配

摄像头让"识人/识物/识手势"成为可能，但基座层 BOM 吃不消 +$5-8。

A. 基座层不做摄像头，把视觉作为情感层差异化（推荐）
B. 基座层选配摄像头版本（高端款）

角色与玩法设计 · 3 个

D-06

7 角色分类是否需要用户实证测试

学术 60 年教训：分类不经实证都会被推翻（Warpefelt 方法）。

A. 跳过实证，直接进开发
B. MVP 上线前做 100 人用户测试，辨识度 ≥70% 才冻结（推荐）

D-07

儿童语音 ASR 是否自训练

通用 Whisper 在儿童语音上 WER 较高（15%+），微调可降至 ≤10%。

A. 直接用通用 Whisper-Turbo + 云端兜底
B. MVP 用 A，第二个版本 P1 投入 3-6 个月做儿童微调（推荐）

D-08

TTS 是否做角色音色克隆

每个 IP/Persona 独立音色 vs 5-6 种通用声音。

A. CosyVoice 克隆 - 体验差异大（推荐）
B. 通用角色声音 - 简单稳定

软件栈与基础设施 · 6 个

D-09

后端云厂商

影响 IoT 接入、LLM 服务、CDN 等多个层面。

A. 阿里云全栈（推荐：成熟、IoT 平台完善、Qwen LLM 一站式）
B. 腾讯云全栈
C. 火山引擎全栈
D. 自建 + 多云

D-10

海外市场策略

BP 中提到海外渠道（Walmart/Best Buy 等），何时上海外。

A. MVP 只做国内市场（推荐）
B. MVP 同时上海外（AWS）

D-11

雾节点形态

雾节点是 GDPR 合规屏障，必须有，但形态可选。

A. 主机玩偶兼任（不增加 BOM 成本）（推荐）
B. 单独"家庭网关"产品
C. 家长手机 APP 兼任

D-12

APP 跨平台框架

影响团队招聘、开发速度、长期维护。

A. React Native（推荐：团队招聘最容易）
B. Flutter
C. 分别原生开发

D-13

MQTT broker 自建 vs 云厂商

EMQX 自建灵活但运维重，云厂商 IoT 平台快但贵。

A. 全自建 EMQX
B. 全用阿里云 IoT 平台
C. 混合：阿里云 IoT 入站 + 自建 EMQX 业务总线（推荐）

D-14

创作者工具部署

创作者工具是 PGC/UGC 的入口。

A. Web 工具（浏览器内）（推荐）
B. Mac/Windows 桌面 APP（Tauri）
C. iPad APP

战略与组织 · 4 个

D-15

第一个 IP 联名 MVP 选哪个

5+ 头部 IP 中先做哪个决定首发体验。

BP 中 5 个 IP 选一个：SAMG 爱心萌可、FUFUSOUL AIFUFU、YOUNG TOYS 魔法萌朵、Steiff、HiTOY Nommi

D-16

陪伴 vs 玩具品牌定位

BP 定位是"娱乐"，但陪伴 LTV 更高。

A. 主打"AI 玩具"品牌（Hybrid Casual / Sports / Chance & Collect 主力）
B. 主打"AI 伙伴"品牌（Companion 主力）
C. 双品牌：主品牌做娱乐，子品牌做陪伴（推荐）

D-17

订阅商业模式

BP 提"卡带经济"为主，但陪伴类天然适合订阅。

A. 只做卡带经济（一次性付费 + 道具复购）
B. 卡带 + 订阅双轨（推荐：陪伴类必须订阅）
C. 全订阅模式

D-18

团队规模上限

天使+轮 ¥3000 万对应的合理团队规模。

A. 30-40 人（保守）
B. 50-60 人（推荐：覆盖端/雾/APP/后端/AI/IP/供应链）
C. 80+ 人（激进）

§ 09

学术与产业依据 References

38 篇文献

AIGG 的设计不是凭空发明，而是站在游戏研究、IoT、嵌入式、AI 推理多个领域的成熟工作之上。下面按主题分类列出关键引用。

9.1AI 角色分类（5 篇）

Greimas, A.J. (1966) — Sémantique structurale. 行动元模型（actantial model），叙事学根基，Subject/Object/Sender/Receiver/Helper/Opponent 六元结构
Bartle, R. (1996) — Hearts, Clubs, Diamonds, Spades: Players Who Suit MUDs. MUD 玩家分类奠基，两轴四象限方法论
Warpefelt, H. (2016) — The Non-Player Character: Exploring the believability of NPC presentation and behavior. PhD 论文，NPC 类型学集大成，294 玩家实证
Bouquet, E., Mäkelä, V., Schmidt, A. (2021) — Exploring the Design of Companions in Video Games. Companion 7 维度设计空间
Rato, D. & Prada, R. (2021) — A Taxonomy of Social Roles for Agents in Games. ICEC 2021，离 AIGG 最近的工作

9.2游戏分类学（6 篇）

Caillois, R. (1958) — Les jeux et les hommes. 哲学根基，Agon/Alea/Mimicry/Ilinx 四类 + Paidia/Ludus 风格
Crawford, C. (1984) — The Art of Computer Game Design. 数字游戏分类奠基
Wolf, M. (2001) — The Medium of the Video Game. 41 类穷举分类
Aarseth, E., Smedstad, S.M., Sunnanå, L. (2003) — A Multi-dimensional Typology of Games. DiGRA，AIGG 多维度方案根基
Hunicke, R., LeBlanc, M., Zubek, R. (2004) — MDA: A Formal Approach to Game Design. Mechanics/Dynamics/Aesthetics 框架
PLOS One (2024) — The tangled ways to classify games. 96 篇研究系统综述

9.3产业分类（5 篇）

GameRefinery (2019/2020/2024) — New Genre Taxonomy. 行业最权威三层分类：Category → Genre → Subgenre，52 个 subgenre
data.ai App Annie (2020+) — Game IQ. 80+ 标签的多维方法论
Newzoo (2024) — Games Taxonomy. 投资 / 市场视角分类
Liftoff (2024/2025) — Casual Gaming Apps Report. Hybrid-casual 趋势数据
PocketGamer.biz (2024) — The state of the hypercasual genre in 2024. Hyper-casual 衰落趋势

9.4硬件与嵌入式（7 篇）

CNX-Software ESP32-S3 系列文章（2024-2026）— 嵌入式 AI 玩具最权威评测
TinyComputers.io（2025）— Rockchip RK3588 NPU Deep Dive，国产芯片真实性能基准
NVIDIA Jetson AGX Thor / GR00T（2025）— 双足机器人算力天花板
Espressif ESP-Mesh 文档 — BLE Mesh 在 ESP32-S3 上实测节点上限
Cortesi et al. (2023) — Latency and Power Consumption in 2.4 GHz IoT Wireless Mesh Nodes. ETH Zurich，BLE Mesh vs Wirepas 实测
arXiv (2022) — Latency in Mesh Networks. Thread vs BLE Mesh 真实延迟
36 氪 (2025) — 人形机器人芯片调研，国产现状

9.5AI 模型选型（8 篇）

Awesome Agents (2026) — Small Language Model Leaderboard. SLM 选型权威
distil labs (2025) — SLM Benchmark. 12 个 SLM × 8 任务对比
Northflank (2026) — Best Open Source STT Models. ASR 模型完整盘点
Red Hat (2025) — vLLM vs llama.cpp. 推理引擎权威对比
arXiv (2025) — 2025 Edge Speech-to-Text Benchmark. 边端 ASR 实测
arXiv 2507.14451 — Whisper 在 Raspberry Pi 上的儿童语音 ASR 工程
HuggingFace TGI 维护模式公告 (2025-12) — vLLM/SGLang 成为新标准
Ultralytics YOLO26 Docs (2026) — 最新边端视觉模型

9.6软件系统（7 篇）

Hubble Network 系列（2025-2026）— 嵌入式系统选型权威，FreeRTOS vs Zephyr 决策
EMQX 官方文档 + GitHub（2025）— MQTT broker 行业标准
Matter 1.4.1/1.5 规范（CSA-IOT, 2025）— 物联网配对标准，NFC onboarding
Nordic Semi (2025) — BLE for Wi-Fi Onboarding. 配对流程参考
阿里云 IoT 平台文档 — 国内 IoT 后端事实标准
arXiv (2020) — A Comparison of MQTT Brokers for Distributed IoT Edge Computing. MQTT broker 实测
The Droids on Roids (2026) — Flutter vs React Native 2025 对比

用户场景与体验愿景 User Scenarios & Experiential Vision

⊙.1体验愿景 · 物理与屏幕的协奏

⊙.2四大核心体验诉求 · 全人群覆盖

全人群分析 · 不同年龄段的不同价值

⊙.3站在巨人肩膀上 · 产业先驱对物理游戏的思考

横山悟井（Gunpei Yokoi · 任天堂）· "枯れた技術の水平思考"

岩田聪（Satoru Iwata · 任天堂）· "扩大游戏人口"

宫本茂（Shigeru Miyamoto · 任天堂）· "客厅中心的连接器"

LEGO · "Fluid Play 流动游戏" 哲学

Disney Imagineering · "环境叙事"与 MagicBand

Anki / Cozmo · Pixar 灵感的"情感引擎"

Embodied / Moxie · 社交情感学习的"animate companion"

Toys-to-Life 谱系（Skylanders / Disney Infinity / Amiibo / LEGO Dimensions）· 物理-数字桥

当代中国 AI 玩具创业潮 · BubblePal / FoloToy / 跃然创新

整合 · 8 家公司给 AIGG 的核心启发

⊙.4双重张力 · "智能"与"互联"的协奏

⊙.5自然交互革命 · 从控制器到自然行为

对线下娱乐的革命性意义

多模态融合的技术意义

⊙.6游戏性表现力跃迁 · 从预设到涌现的七维度提升

⊙.7拥抱屏幕的设计立场

⊙.8四大场景 · 用户在哪里玩

⊙.9家庭场景详解 · 主战场的全貌

⊙.10游乐场场景详解 · IP 沉浸式娱乐

⊙.11户外与商业空间 · 出门陪伴 + 品牌触点

⊙.12有机整体 · 智能与互联协奏的 1+1>2 效果

⊙.13用户场景需求清单 · 15 条

核心抽象与设计哲学 Foundational Abstractions

A.1统一抽象 / Role × Activity

A.2双引擎协作 / Rule Engine × AI Engine

A.3三层 IR / Scene · Logic · Primitive

A.4三种同步范式 / Sync Paradigms

A.5三层记忆 / Memory Architecture

A.6两段式放置规划 / Compile + Lookup

活动分类 · 6 Class Activity Classification

B.16 大 Activity Class

B.2三种结构维度

B.3活动 IR 实例

AI 角色 · 7 个一级分类 AI Roles

C.1三轴一级分类

C.2身份层 / 位置层 分离

C.3七角色完整定义

C.4角色 × 玩法映射

物理层硬件 Hardware Tiers

D.1四档算力档位

D.2四层产品 → 算力档位映射

D.3Chiplet 模块化（8 类功能子板）

D.4周边道具 / 玩具的完整硬件谱系

D.4.1 周边道具的 4 大形态

D.4.2 无源道具的硬件 / NFC 标签详细

D.4.3 电子道具的硬件参考设计

D.4.4 大型互动装置 · 游乐场 / 商场场景

D.4.5 周边道具的发布与运营节奏

D.4.6 周边道具的接入协议规范

D.4.7 周边道具自身的视觉能力 · "看"也是周边的能力之一

视觉道具三大类型

A · OID 光学识别笔 · 详细工程

B · CMOS 扫描翻译笔 · AI 化的视觉道具

C · 扩展摄像头模组 · 给任何玩具临时加视觉

D · AR 头盔 / VR 玩具 · 视觉的另一个方向

E · 周边道具视觉的协同涌现 · AIGG 独有的玩法

D.5主机识别周边道具的多种方式 · 平等并行

D.6蜂窝物联网 · 远程连接能力

D.7无线协议能力边界（实测数据）

D.8视觉硬件谱系 · 从基础摄像头到深度感知

D.8.1 视觉硬件四大类型

D.8.2 具体型号参考 · BOM 估算

D.8.3 AIGG 四层产品的视觉硬件配置

D.8.4 视觉硬件的工程考量

AI 模型与推理 AI Models & Inference

E.16 类模型独立选型

E.2云端 LLM 成本对照

E.3推理框架选型

E.4三层算子放置策略

E.5视觉 AI 完整栈 · 从识别到 VLA

E.5.1 视觉能力四层架构

E.5.2 VLM 选型矩阵 · 边缘到云端

E.5.3 VLA · 视觉-语言-动作模型 · 机器人前沿

E.5.4 VLM/VLA 在 AIGG 各场景的具体应用

E.5.5 视觉护栏 · 儿童安全的硬底线

C.2身份层 / 位置层分离