● CONFIDENTIAL INTERNAL ONLY 2026.04
人工生产力 / Artificial Productivity

AIGG 平台
需求规范

AIGG(AI-Generated Game)平台的工程需求文档。本文档明确了平台的核心抽象、玩法覆盖、AI 角色、硬件层、软件栈、互联协议与商业边界。 每一条需求都包含目标、衡量标准、与不要做什么——三件齐才算需求,少任一件均为愿景。

本文档与《AIGG 平台产品愿景》互为印证——愿景文档讲"为什么做、做什么、为谁做",本文档讲"怎么做、做到什么标准"。 两份文档配合使用——愿景文档对齐方向,本文档对齐细节。

需求总数
141
P0 / P1 / P2
100 / 36 / 5
需求簇
14
未决策项
18
目录 / TABLE OF CONTENTS 10 章节 / 141 条需求
§ 00

用户场景与体验愿景 User Scenarios & Experiential Vision

这一章是所有后续需求的真正起点——架构、硬件、软件、协议都在为这里描述的体验服务。AIGG 的本质命题是:用 AI 与互联,把原本孤立、不能动、各自为政的玩具/道具/玩偶/装置组织成一个有机的整体,让物理世界变得足够好玩,足以与屏幕争夺孩子(和成人)的时间。

⊙.1体验愿景 · 物理与屏幕的协奏

过去十五年,娱乐产业的重心确实在向屏幕迁移——这不是因为屏幕"夺取"了什么,而是因为屏幕同时获得了表现力、便携性、网络化、可迭代四个根本能力。 全球游戏市场 2025 年规模 1970 亿美元(移动 55% / PC 22% / 主机 23%),中国移动游戏 2570 亿元——这是真实的产业繁荣,AIGG 不否认、不对抗、也不试图夺取。

但与此同时,物理玩具没有跟上时代——它既不够智能(玩三天就腻),也是孤立的(玩偶不能和卡片对话、奶奶家的玩偶不认识你家的玩偶)。 AIGG 的核心命题是让物理玩具补上 AI 时代应得的能力升级,与屏幕娱乐形成协奏而非替代关系。

屏幕擅长的——千变万化的视觉表现力、便携触手可达、网络化社交、持续迭代运营。这是数字娱乐独有的强项。

物理擅长的——具身认知(身体参与是一种学习)、自由游戏(执行功能根基)、真实物件依恋(80% 儿童形成、66% 保留 20+ 年)、共同在场(面对面无可替代)、多感官记忆、物理仪式感、跨年龄/能力/网络/语言的普适性。这些价值独立于 AIGG 而存在,跨越人生 80 年(从婴儿手中拨浪鼓到老人怀中 PARO 海豹),跨越 175 年玩具产业史,从未消失。

AIGG 拥抱屏幕也拥抱物理——家长 APP / 模拟器 / 玩偶 LCD 表情屏 / 远程视频陪伴 / AR 头盔 等都是 AIGG 体验栈的一部分。AIGG 的立场是:屏幕是表现力之一,不是表现力的全部

要让物理玩具在 AI 时代获得能力升级,需要智能 × 互联的乘积效应——智能拉升单点可玩性(NUI 自然交互革命 + 游戏性表现力七维度跃迁),互联拉升整体涌现(玩具越多体验越好的正向网络效应)。两者必须同时具备:没有智能,互联只是连接傻物件;没有互联,智能只是孤独的聪明玩偶。

⊙.2四大核心体验诉求 · 全人群覆盖

物理世界游戏的四个独有价值——这些价值独立于 AIGG 而存在,是 AIGG 之所以值得做的前提。 它们贯穿人生 80 年,跨越 175 年的玩具产业史。每一条都不是"对屏幕的反对",而是"物理形态本身赋予的不可替代价值":

VALUE 01
具身参与的真实感
Embodied Participation
触觉
空间
运动
认知科学过去三十年最重要的发现之一是具身认知(Embodied Cognition)——身体的感知、动作、空间体验深度参与思维过程。 触觉学习(MDPI 2021)、积木 vs 视频对比(AAP 2018)等研究都证实:身体真实参与的学习效果显著优于纯视听通道。 这是物理形态独有的、屏幕无法复刻的能力——从婴儿抓握物体到老人触摸 PARO 海豹都受益。
VALUE 02
真实物件的占有感
Tangible Ownership
依恋
收藏
传承
Winnicott 1953 年提出的过渡客体理论:80% 儿童形成深度物体依恋,66% 保留 20+ 年。最新研究(PMC 2024)证实:成年人接触童年依恋物时心率变异性升高、皮质醇下降——这是身体级别的真实生理反应。 泡泡玛特年销 200+ 亿、Labubu 海外现象级——证明成年人对实体物件的情感投入也是巨大的。物理物件还会被时间打磨产生"传记性",可跨代传承——数字物件没有这些属性。
VALUE 03
共同在场的连接
Co-located Connection
家人
代际
关系
面对面的真实社交是人类生物学层面的需求——眼神交汇、生理同步、肢体距离传递的安全感。 2025 全球桌游 160 亿美元 / CAGR 10%,48% 玩家因家庭游戏夜购买;StartPlaying 2025:78% Gen Z 通过 RPG 结交亲密朋友。 桌游研究还证明:物理游戏是少数能让爷爷奶奶 / 父母 / 孩子作为平等参与者共玩的场景。这种跨代纽带是数字娱乐难以复刻的。
VALUE 04
跨年龄的普适性
Universal Accessibility
无门槛
鲁棒
长寿
物理玩耍有一个被低估的优势:它对参与者的能力门槛极低,跨年龄、跨能力、跨网络、跨文化都能进行。 18 个月婴儿到 80 岁老人都能玩;认知障碍老人对物理物体反应保留得最久(PARO 临床研究);野外/停电/无网场景仍能工作;不需要识字、不挑使用者技术熟练度。 同一只毛绒玩偶可以陪伴一个人从 1 岁到 80 岁——这种生命周期级别的陪伴是数字娱乐做不到的。

全人群分析 · 不同年龄段的不同价值

AIGG 的产品对象不只是儿童。物理游戏的魅力在不同人群中以不同方式显现:

人群核心价值关键学术支撑对应产品形态
儿童
(0-12 岁)
大脑发育的根基——执行功能、亲社会行为、语言习得、自我调节 AAP《Power of Play》2018/2025、WHO 屏幕指南、具身认知 MDPI 2021 主战场·基座层精灵 + 情感层旗舰
青少年
(13-22 岁)
社交与身份建构——TTRPG 友谊、潮玩收藏、心理重置 StartPlaying 2025:78% Gen Z 通过 RPG 结交挚友、90% 用 RPG 心理重置 桌游 / 剧本杀 / 实体卡牌 / 潮玩
成人
(23-55 岁)
数字疲劳的减压锚点——情感陪伴、压力释放、家庭游戏夜 桌游 160 亿美元 / CAGR 10%、48% 因家庭游戏夜购买、PMC 2024 生理研究 家庭桌游 + 收藏品 + 减压陪伴玩偶
老人
(55+ 岁)
认知健康与孤独干预——情绪改善、社交激发、记忆刺激 PARO RCT 多项临床研究、Banks 2008(AIBO ≈ 真狗效果)、AMSTEL 孤独研究 陪伴机器人 / 认知干预 / 跨代桌游

这个分析对 AIGG 平台设计有三个直接含义

  • 产品矩阵不应被单一人群锁定——基座层精灵主打儿童 / 情感层旗舰跨儿童到成人 / 陪伴机器人面向银发人群
  • 活动 IR 必须支持全年龄段——同一活动框架可适配不同年龄段(家庭桌游能让全家共玩)
  • 合规与安全分级——儿童产品需要 COPPA 级护栏,老年人产品需要适老化设计、紧急响应

⊙.3站在巨人肩膀上 · 产业先驱对物理游戏的思考

AIGG 不是凭空发明物理游戏的设计哲学,而是站在 40 年产业积累之上做集成与突破。下面是我们调研后认为最值得继承、也最值得引以为戒的几家公司的核心思考——既包括它们的洞察,也包括它们的失败教训。

横山悟井(Gunpei Yokoi · 任天堂)· "枯れた技術の水平思考"

任天堂 Game & Watch 与 Game Boy 的发明者,提出影响整个产业 40 年的设计哲学:"用枯萎的技术做横向思考"——不追求最前沿的硬件,用已经成熟、便宜、可靠的技术做不寻常的组合。这条路径让任天堂在硬件竞赛中不与 Sony / 微软正面竞争,开辟"蓝海"。

AIGG 不应试图做"算力最强的玩偶"——情感层用 ESP32-S3 而不是 Jetson Orin,不是技术降级,是设计哲学的胜利。把 NFC(30 年老技术)和大模型(最新技术)组合起来就是横山悟井哲学的当代版本。

岩田聪(Satoru Iwata · 任天堂)· "扩大游戏人口"

2005 年 GDC 演讲:"心里是一个游戏玩家"。Wii 的设计目标是把不玩游戏的人变成游戏玩家——爷爷奶奶、家庭主妇、所有被传统游戏机吓退的人。Wii 遥控器叫"remote"不叫"controller"——Iwata 坚持这个细节,因为电视遥控器是所有家庭成员都用过的器物

AIGG 玩偶的目标用户不是"游戏发烧友的孩子",是所有家庭成员——5 岁孩子、8 岁孩子、爸爸妈妈、爷爷奶奶都能 5 分钟上手。这就是为什么 AI 主机要做成"玩偶"而不是"游戏机"——玩偶是所有家庭成员都熟悉的器物。Wii Sports 卖了 8000 万套不是因为它"好玩",是因为它"任何人都能上手"。

宫本茂(Shigeru Miyamoto · 任天堂)· "客厅中心的连接器"

Wii 的设计哲学:游戏机不是"另一台电器",是"把家人聚在客厅的工具"。所以 Wii 的物理外形是"3 张 DVD 盒大小"——可以塞在电视旁边任何角落,不打扰客厅美感。

AI 主机玩偶的物理设计要服从于"它要待在客厅而不被嫌弃"——比如形态足够可爱让妈妈愿意放在沙发上、声音不能太机械化、灯光要柔和。这是审美问题但和工程同等重要。BP 的"毛绒+芯片"形态选择正是这个哲学的体现。

LEGO · "Fluid Play 流动游戏" 哲学

从 1998 年 Mindstorms 开始,LEGO 探索物理与数字结合的游戏方式 27 年。2020 年 LEGO Super Mario 与任天堂联合推出,2026 年发布 Smart Brick——传感器嵌入积木块,"主要互动仍在物理搭建,APP 只是辅助"。LEGO CEO 一句话:"家长越来越担心屏幕时间,所以我们的 Smart Brick 设计原则是物理操作为主、APP 为辅"。

AIGG 的核心也必须是"物理优先 · 数字辅助"——APP 不能成为玩耍的中心。如果用户大部分时间在看屏幕,那 AIGG 就败给了手游。BP 中"反斗城/孩子王"的渠道选择正是这个判断——物理玩具的销售场景。LEGO 用 27 年告诉我们:物理为主可以做大,做成第二大玩具公司。

Disney Imagineering · "环境叙事"与 MagicBand

迪士尼 1955 年开始的"Imagineer"传统——所有细节都为环境叙事 (environmental storytelling) 服务。1988 年发明的 4 层沉浸细节理论:远景视觉 → 中景空间 → 近景质感 → 微观细节。MagicBand(2013)和 MagicBand+(2022)把这个哲学物联网化——一只 RFID + BLE 手环让整个园区成为响应你的活体:进园自动识别、夜晚烟花表演时手环按节奏发光、Star Wars 区域寻宝任务由手环引导。

MagicBand 的本质不是"硬件产品",而是"让物理空间成为响应你的活体"的协议网络——所有园区设备都听 MagicBand 的呼吸。这正是 AIGG 在家庭场景要做的事:主机玩偶 + NFC 卡 + 小车 + 灯具 = 家变成响应你的活体。这是 Disney 用 80 亿美元和 30 年建造的认知,AIGG 应该完全继承。

Anki / Cozmo · Pixar 灵感的"情感引擎"

Anki 的 Cozmo(2016, $180)是Pixar 动画师 Carlos Baena 加入设计的产物。核心哲学:"不要追求完美,要追求 personality"——刻意设计动作的"自然不完美"让玩具显得活着。Cozmo 在 2017 年成为亚马逊销量第一的玩具。

Anki 在 2019 年破产——融资轮意外失败。$180 对玩具仍然太贵;技术再好但变不成可持续的商业模式。Cozmo 的失败告诉 AIGG:技术领先 + 情感设计极致都不够,必须有可持续的商业引擎——这也是为什么 BP 的"卡带经济 + 订阅"组合至关重要。

Embodied / Moxie · 社交情感学习的"animate companion"

iRobot 前 CTO Paolo Pirjanian 创立的 Embodied($799 Moxie)专做儿童社交情感发展。哲学:"不是游戏机,是 animate companion(活的伙伴)"。每周一个生活技能主题(善良、友谊、共情、尊重),通过日常互动培养。Moxie 用 Yves Béhar 设计、Pixar 动画思路。

Embodied 在 2024 年底突然停运——孩子们对 Moxie 形成情感依赖后产品关停,造成大量家长心碎反馈。这是 AI 玩具行业的标志性悲剧事件。教训:用户与玩偶的情感连接是产品最强的护城河,但也是最重的责任——AIGG 的服务连续性必须设计为"即使公司倒闭,玩偶人格也能在本地继续运作"。这要求 Persona 数据可导出、本地大模型兜底、紧急关停 plan。

Toys-to-Life 谱系(Skylanders / Disney Infinity / Amiibo / LEGO Dimensions)· 物理-数字桥

2011 年 Activision 的 Skylanders 开创"toys-to-life"模式——NFC 玩偶放上底座激活游戏角色,仅 Skylanders 4 年内卖出 30 亿美元。Disney Infinity(2013-2016)跨 IP 整合(漫威、星战、皮克斯)。任天堂 Amiibo(2014-至今)—— 不绑死单一游戏,跨多游戏使用。LEGO Dimensions(2015-2017)—— 乐高积木 + NFC 底座 + 屏幕游戏。

"主机+周边玩偶"这个商业模型有 15 年成熟经验,不是 AIGG 发明。AIGG 要继承这套模式,但有 4 个突破:① 主机不是屏幕游戏机,是物理玩偶 ② 周边不局限于"角色雕像",而是各种道具 ③ 不依赖 IP 授权也能玩(自有 SKU + 第三方)④ 周边和玩偶组成有机整体,不只是"unlock 关卡"。Amiibo 模式(不绑死单游戏)尤其值得学习——AIGG 的卡带可以跨多个活动使用。

当代中国 AI 玩具创业潮 · BubblePal / FoloToy / 跃然创新

2024-2025 年中国 AI 玩具创业爆发——BubblePal(¥399)半年销量 2.5-5 万台,单平台销售额超 ¥2000 万。FoloToy 2025 一季度销量已接近 2024 全年。这些早期创业者验证了"低价 + 大模型 + 情感陪伴"路径在中国市场可行。

BubblePal 等已经验证了 ¥399 价位的 AI 玩偶有真实需求。但它们的天花板是单一玩偶的对话——没有解决"多玩具协同"的核心问题。AIGG 的差异化不是做又一只 BubblePal,而是做能让 BubblePal 这类玩偶都能加入的"主机 + 协议网络"——做玩具的 iOS而不是又一只玩具

整合 · 8 家公司给 AIGG 的核心启发

公司 / 人核心思考AIGG 继承
横山悟井 · Nintendo枯萎技术的横向思考NFC 老技术 × 大模型新技术的组合
岩田聪 · Nintendo扩大游戏人口主机做成玩偶让所有家庭成员上手
宫本茂 · Nintendo客厅中心的连接器毛绒外形 + 柔和声光 = 客厅审美
LEGOFluid Play · 物理优先APP 为辅·物理操作是中心
Disney Imagineering环境叙事 + MagicBand 协议网络整个家变成响应你的活体
Anki / CozmoPixar 情感引擎 · 但商业模式不可持续情感设计极致化 + 卡带商业引擎
Embodied / Moxieanimate companion · 但情感依赖责任重本地化兜底 + 数据可导出·关停 plan
Skylanders / Amiibotoys-to-life 跨游戏复用卡带跨多活动 · 不锁定单 IP

这 8 家公司各自做对了一件事,但没有任何一家把所有事都做对

  • Nintendo 做对了"扩大人口 + 客厅中心",但没做"物理玩具+大模型"
  • LEGO 做对了"物理优先",但没做"AI 智能"
  • Disney 做对了"协议网络",但只在乐园做不在家庭
  • Anki / Embodied 做对了"AI + 情感",但商业模式扛不住
  • Skylanders / Amiibo 做对了"toys-to-life",但仅是屏幕游戏的附属
  • BubblePal 做对了"低价 AI 陪伴",但没解决多设备协同

AIGG 的机会是把这 8 件事在一个产品矩阵里同时做对——这是 AI 玩具行业的"集大成时刻"。这也是为什么 BP 中"主机+卡带+雾节点+多设备协同"的整体设计是真正的差异化,不是单点功能。

⊙.4双重张力 · "智能"与"互联"的协奏

下图说明 AIGG 究竟在解决什么问题——传统玩具既笨又孤立,每只是预设几句话的死东西,相互之间还互不通信;AIGG 通过大模型让每只玩偶变聪明 + 互联协议让所有物件形成有机协作网络,并将体验延伸到家庭之外。智能拉升单点上限,互联拉升整体涌现,两者乘积才是真正的护城河

传统玩具模式 DUMB · ISOLATED · SILO AIGG · 智能互联模式 INTELLIGENT · CONNECTED · ORGANIC 智能 × 互联 协奏 玩偶 A 预设 玩偶 B 预设 卡片 看不懂 积木 不响应 音响 独立用 小车 遥控器 家长 APP 单独 APP 桌游 需要主持人 乐园票 回家就忘 手环 孤立 收藏品 摆设 玩具枪 不知敌友 单点笨 · 整体散 每只玩具只能预设几句话·孩子三天就玩腻·设备之间互不通信·新增玩具就要新装 APP AI 主机 + Persona 家庭中枢 玩偶 道具卡 积木 机动车 家长 APP 家居灯/音响 朋友家 玩偶 收藏品 云端 AI · LLM · 数据飞轮 Persona 持久化 · 跨家庭联机 ↑ 跨场景延伸 ↓ 游乐场 奶奶家 / 户外 商场 / 学校 单点拉升上限 · 整体涌现协同 大模型让每只都聪明·互联让所有物件协奏·物件越多体验越好·跨场景跨家庭延续

⊙.5自然交互革命 · 从控制器到自然行为

AI 给物理世界带来的第一个具体革命是自然交互革命(NUI · Natural User Interface)。 把它放进人机交互演进史的位置上看:打孔卡 → 命令行 → 图形界面(鼠标键盘)→ 触控屏 → 自然交互—— 每一代都朝着"更直觉、更接近人类自然行为"的方向。AI 让我们正式进入第五代范式。

NUI 的核心是多模态自然交互——同时使用语音、视觉、触觉、手势、姿态、表情、空间位置等多种通道, 与人类日常和真实世界互动的方式一致。微软、Google、Apple、Meta 都在押注这个方向;ScienceDirect 等学术综述把它称为 "从 WIMP 范式到 NUI 范式的根本性架构变迁"。

对线下娱乐的革命性意义

传统玩具的交互是"按按钮"或"扳开关",电子玩具是"看屏幕点屏幕"。AIGG 让玩具可以同时听你说话、看你的脸、感受你的触摸、识别你的手势、注意你的位置,然后用语音、表情、动作、灯光多通道自然回应。 这是物理玩具历史上从未发生过的交互范式跃迁——从"操作工具"变成"自然伙伴"。

NUI 的跨人群普适性尤其重要:

多模态融合的技术意义

NUI 的真正威力不是"支持多种交互方式",是多通道协同理解—— 用户说"看这个"+ 同时手指着 + 同时看着某物——AI 把语音 + 手势 + 视线方向融合成单一意图。 这是单通道 AI 永远做不到的,只有真正的多模态系统才能实现。

⊙.6游戏性表现力跃迁 · 从预设到涌现的七维度提升

"AI 让玩具更智能"是含糊的描述。具体地说,AI 在游戏性的多个维度同时提升了物理玩具的表现力—— 这种全维度提升以前只发生过一次,就是从单机游戏到联机游戏的跃迁。

下面这 7 个维度都是可被工程实现、可被量化衡量的具体能力,不是空泛的修辞:

维度从(传统玩具)到(AIGG)产业证据
1. 动态生成内容 固定剧情对话 每次互动基于上下文重新生成 GDC 2025: 1/3 开发者使用生成 AI;Steam 20%+ 游戏使用生成 AI 资产,年增 700%
2. 实时反馈丰富性 预录音效("刺激-反应") 语义级实时反馈("理解-回应") Justice Online Mobile NPC 实时对话;NVIDIA ACE PUBG Ally
3. 自适应难度节奏 难度固定 实时分析玩家技能/情绪/参与度,动态调整 Candy Crush AI 实时调整千万关卡;No Man's Sky 自适应世界
4. 声光电多通道协同 灯光/声音/动作各自独立 多输出通道协同表达情感和情境 Anki Cozmo Pixar 动画师 emotion engine
5. 连续人格 预设台词集合 持续记忆 + 偏好学习 + 性格演化 Monolith Nemesis System;NetEase 长期记忆 NPC
6. 灵活性与张力 剧本固定 同框架每次产生不同紧张感、转折、高潮 D&D(78% Gen Z 通过 RPG 结交挚友的灵活性根源)
7. 跨设备协奏 每个玩具独立 多玩偶/卡片/灯光/音响整体协奏一场表演 Disney MagicBand+ 全园区协奏(30 年 80 亿美元验证)

这 7 个维度合起来构成的游戏性表现力跃迁,让物理玩具从"会发声的塑料" 进化为"有性格、会即兴、能与你共同创造体验的伙伴"。每个维度都对应平台需要做的具体工程能力——见后续 §02 双引擎、§03 AI 角色、§05 AI 模型等章节的展开。

⊙.7拥抱屏幕的设计立场

AIGG 不是反屏幕——屏幕娱乐的成功是真实且合理的。屏幕带来的千变万化的视觉表现力是物理世界永远无法等价复刻的——飞龙、星空、变形怪兽、即时切换的场景。 AIGG 不仅不否认这种价值,而且主动拥抱屏幕作为体验栈的一部分

具体而言,AIGG 的体验栈中以下部分是屏幕:

AIGG 的核心立场屏幕是表现力之一,不是表现力的全部。 平台架构必须既支持屏幕作为输出通道,又确保物理形态承担"主战场"——不让 AIGG 退化为"又一个屏幕 APP"。

2025 年全球玩具行业已经把"phygital play"(物理-数字融合游戏)作为产业共识—— AR 玩具市场规模 2025 年 37 亿美元,年增 14.5%。LEGO Super Mario、PlayShifu Tacto、HOLOBRITE Pixie Lantern 都是"物理 + 屏幕协同"的成功案例。 LEGO 在 2026 年发布的 Smart Brick 明确说:"主要互动仍在物理搭建,屏幕只是辅助"。 AIGG 的定位是这个共识的最完整执行者——把"物理 × 屏幕 × AI × 互联"四者编织成一张网。

⊙.8四大场景 · 用户在哪里玩

AIGG 必须在四类典型场景里都跑通——每个场景对硬件、互联、商业模式都有不同要求:

SC-A · 家庭
日常家庭娱乐 · 主战场
客厅、儿童房、餐桌、睡前床头。多个玩偶 + 多张卡 + 多个道具 + 家长手机 + 智能家居灯光。2-6 人同处一室,5-30 分钟游戏单局或长线陪伴。家庭 Wi-Fi + 雾节点。
主流 / 走量 SKU
SC-B · 户外
出门携带 · 旅途与亲友家
车上、奶奶家、旅游路上、餐厅等待。没有家庭 Wi-Fi,靠蜂窝模块(LTE-M / Cat-1bis / RedCap)+ 4G 流量。轻量设备,长续航优先。儿童在陌生环境的情感陪伴诉求强。
蜂窝模块必装 SKU
SC-C · 游乐场
商业娱乐空间 · IP 沉浸式
主题乐园、室内儿童乐园(POP LAND / Hello Kitty 度假村 / 乐高乐园)、亲子餐厅、IP 快闪店。大型双足/轮式机器人作为场景固定演员,玩家随身携带个人玩偶可与现场设备联动,离场时进度同步回家。Wi-Fi 6 + 蓝牙密集组网。
B2B 大额合同
SC-D · 商业
公共空间触点 · 品牌曝光与转化
商超 / 玩具店 / 博物馆 / 学校 / 养老社区。轮式机器人作为 IP 形象大使 + 现场试玩入口。试玩 5 分钟体验完整 → 关注订阅 → 购买回家。这是把"不知道 AIGG 是什么"的人变成用户的关键漏斗。
B2B2C 转化漏斗

⊙.9家庭场景详解 · 主战场的全貌

家庭场景是 AIGG 的主战场——80% 的用户时长会发生在这里。下面是一个典型家庭的设备拓扑:

角色典型设备数量职责
核心 AI 主机情感层玩偶(¥899-1999)或场景层小机器人1 台/家家庭 AI 大脑、雾节点、Persona 主角色
个人 AI 玩偶基座层精灵(¥199-399)每个家庭成员 1-3 个个人陪伴、IP 联名收藏、便携
NFC 道具卡IP 联名卡牌、剧情卡、场景卡、角色卡10-100 张/家触发活动、解锁内容、角色扮演
有源道具BLE 机动小车、声光灯、抢答器、小机器3-10 件/家主动参与游戏的"演员"
游戏场地件桌游棋盘、地图、场景套装、立体玩具屋2-5 套/家构造游戏空间
家长设备手机 APP(家长端)+ 平板(孩子端可选)1-2 台监管、配置、远程参与、报告
家庭智能设备智能灯、音响、电视(可选联动)已有/可选沉浸感扩展(关灯进入故事模式)

典型一晚的家庭使用画像(基于 BP "家庭游戏世界"愿景):

晚上 7:00 · 餐桌 · 妈妈打开核心 AI 主机,玩偶从充电座苏醒。爸爸把白天买的"魔法森林"NFC 套装卡放到桌上,玩偶识别后说:"今晚我们去魔法森林吗?"5 岁的孩子尖叫着把"小狐狸"角色卡放过去,玩偶变身小狐狸的声线。

7:15 · 客厅 · 家庭桌游开始。AI 玩偶担任 Director(裁判 + 主持人),桌上的 BLE 抢答器同步亮灯。爸爸的玩偶今天扮演 Player(凑数玩家),妈妈的玩偶扮演 Narrator(讲故事)。客厅灯光配合剧情自动调节。

8:30 · 儿童房 · 桌游结束,孩子带着自己的小玩偶进卧室。玩偶从"裁判模式"切换到"陪伴模式"。孩子讲今天幼儿园发生的事,玩偶记下来——这进入 L2 事件记忆。

9:00 · 床头 · 玩偶切换到"睡前故事"——根据孩子今天的情绪即兴生成故事,主角是孩子收藏的卡片角色。家长 APP 收到一份温柔的"今日成长简报"。

第二天清晨 · 玩偶离线时云端继续生成"它做了个梦"的内容。孩子起床,玩偶说"我刚才梦到你养的小狐狸学会跳舞了!"——这是离线推进让陪伴变魔法的瞬间。

⊙.10游乐场场景详解 · IP 沉浸式娱乐

游乐场场景是 BP 中"城市游戏世界"的对应——把 AIGG 能力延伸到家庭之外的商业娱乐空间。这是市场已经验证过的赛道:北京环球影城"中国神话"AR 区域吸引外籍游客占比 30%;TeamLab 无界美术馆复购率 35%、客单价 500+;上海迪士尼"AI 角色互动"项目让游客平均停留延长至 9 小时。

子场景设备形态关键体验商业模式
主题乐园 大型双足人形机器人作为 IP 形象 / 全场景固定 AI 角色 / 沉浸式互动装置 个人玩偶进入园区与场景中的 AI 联动;卡片在不同园区有不同效果;离场时获得专属"今日冒险"故事 B2B 设备销售/租赁 + 衍生品分成
室内儿童乐园 大量轮式中型机器人 + 桌面 AI 主机阵列 + 互动地面投影 儿童入场获得手环/卡片,参与多个活动获得勋章;和家里玩偶进度同步 场地分账 + 卡牌销售
IP 主题快闪店 1-2 台旗舰机器人 + 大屏 + IP 联名互动桌 到店激活专属内容;现场抓拍合影;扫码一键购买回家版 IP 方付费 + 转化销售
亲子餐厅 / 咖啡馆 桌面型小型 AI 主机 + 桌游道具套装 等待上菜的 15 分钟玩一局桌游;AI 当裁判和故事讲述者 设备租赁 + 桌游分账
剧本杀 / 密室 多个 AI 玩偶作为 NPC + 场景中的物理道具识别 AI 玩偶作为 Narrator 推进剧情,每次体验不同——AI 让剧情可重玩 场地合作 + 剧本订阅

AIGG 的真正护城河之一:家庭设备和游乐场设备共享同一套 Persona 身份系统。"小宝"在你家是床头陪伴,去乐园后变身为乐园里的"向导"和你一起探险,回家后讲述"我们今天的冒险"。这是迪士尼/环球影城都做不到的——它们的 IP 没有跟着你回家。AIGG 的玩偶把家庭和商业场景之间的鸿沟填平。

⊙.11户外与商业空间 · 出门陪伴 + 品牌触点

SC-B 户外场景——奶奶家、车上、旅游路上、餐厅。这是被市面上 AI 玩具产品普遍忽视但实际很重要的场景:

SC-D 商业空间触点——商超、玩具店、博物馆、学校、养老社区。这是新用户转化的核心漏斗

⊙.12有机整体 · 智能与互联协奏的 1+1>2 效果

把"既笨又孤立的传统玩具"变成"有机协作的智能整体"的具体技术实现表现为以下 6 种"协同涌现"——这些是单一玩偶/单一道具做不到的。协同的前提是每个节点足够智能——只有 AI 玩偶能听懂自然语言、理解上下文、即兴生成剧情,"协同"才有意义;如果每个节点都只会预设语句,再多互联也只是"机械连接"。

协同方式体验描述技术依赖
角色协同 桌上 4 个玩偶各演一个角色——AI 自动分配 Director / Player / Narrator / Helper,对话不撞戏不冲突 多 Agent 协同框架 + 角色协作硬规则
道具协同 把"魔法卡"和"龙卡"同时放上桌,AI 玩偶识别组合 → 触发"召唤龙"剧情 多识别方式融合(NFC + BLE + 视觉)
空间协同 玩偶移动到桌子另一端 / 客厅 vs 卧室 / 屋内 vs 屋外——AI 根据位置自动切换剧情 BLE Mesh 信号强度定位 + 室内外感知
时序协同 主持人玩偶喊"3、2、1"——所有玩偶/灯光/扬声器同时反应(同步精度 ≤50ms) 家庭时钟同步 + 提前调度
跨家庭协同 朋友家的玩偶来做客 → 自动加入家庭网络 → 临时组队游戏;走后数据各归各 身份标识 + 临时家庭加入协议
跨场景协同 家里的小宝跟你去乐园——在乐园成为向导,回家后讲述冒险 Persona 跨场景身份延续 + 离线推进

⊙.13用户场景需求清单 · 15 条

ID需求衡量标准优先
⊙1物理世界要足够好玩提供屏幕游戏不可替代的体验家庭日均使用时长 ≥30 分钟
  • 智能拉升单点上限·互联拉升整体涌现
  • 两者乘积·缺一不可
P0
⊙2智能与互联的乘积效应每只玩偶都聪明 + 设备形成有机整体单玩偶可玩性 × 设备数量协同
  • 不做"傻物件互联"也不做"孤独的聪明玩偶"
  • 家中设备越多·体验越好(不是越乱)
P0
⊙3SC-A 家庭场景为主战场支持 2-6 人多设备协同客厅 / 卧室 / 餐桌 / 床头 全场景跑通
  • 不只做单点功能
P0
⊙4SC-B 户外场景无家庭 Wi-Fi 也能用蜂窝模块(LTE-M / Cat-1bis / RedCap)+ 离线降级P1
⊙5SC-C 游乐场场景大型机器人作为场景演员轮式 / 双足机器人作为 IP 大使·与个人玩偶联动P1
⊙6SC-D 商业空间触点转化新用户的漏斗5 分钟体验·一键关注/订阅/购买回家版P1
⊙7家庭与乐园 Persona 联动"小宝"跟你去乐园·变向导·回家讲述冒险
  • 不让乐园和家是两个分裂世界
P1
⊙86 种协同涌现角色 / 道具 / 空间 / 时序 / 跨家庭 / 跨场景每种协同至少有 2 个产品级落地场景P0
⊙9朋友来访临时组网开机即被发现访客玩偶 30 秒内加入·走后数据各归各P1
⊙10智能家居联动(可选)客厅灯/音响/电视支持 Matter 1.4+ 协议·非必须但可加分P2
⊙11"AI 不替代人际"原则Persona 鼓励家庭成员一起玩活动设计审查·禁止单向沉迷设计
  • 参考 T/GDIDA 26—2025《智能玩具场景化设计导则》
P0
⊙12全人群覆盖儿童 / 青少年 / 成人 / 老人产品矩阵覆盖至少 3 个人群·活动 IR 支持年龄分层适配
  • 不锁定单一儿童视角
  • 老年陪伴产品有适老化与紧急响应
P0
⊙13拥抱屏幕的设计立场屏幕是体验栈一部分家长 APP / 创作者 Web / 玩偶 LCD / 远程视频 / AR 眼镜 都被支持
  • 不为反屏幕而反屏幕
  • 但物理形态承担主战场
P0
⊙14NUI 自然交互范式多模态自然交互作为核心抽象语音/视觉/触觉/手势/姿态/表情多通道协同·多模态融合理解意图
  • 不让某一种交互方式主导(如不强制屏幕点击)
  • 跨人群普适·儿童老人都不需先成为"用户"
P0
⊙15游戏性表现力七维度跃迁每个维度可衡量动态生成内容·实时反馈丰富性·自适应难度·声光电协同·连续人格·灵活张力·跨设备协奏
  • 不让"AI 更智能"停留在含糊修辞
  • 每个维度有具体的工程指标
P0
§ 01

核心抽象与设计哲学 Foundational Abstractions

AIGG 平台不是一个游戏引擎,也不是一个聊天 AI,而是"角色在玩活动"的统一运行时。所有产品形态——派对游戏、长线陪伴、运动健身、收集养成、UGC 创作——都是这个抽象在不同维度上的取值。

A.1统一抽象 / Role × Activity

替代"游戏 vs 陪伴"二分法的核心抽象。一切玩法都是角色在玩活动没有"陪伴运行时"和"游戏运行时"的二分——陪伴是"AI 灵活性占主导"的活动类型,游戏是"规则确定性占主导"的活动类型。

Persona 是身份层,Player / Actor / Referee 是位置层。"小宝"(Persona)今天进入桌游临时占据 Director 位,明天进入合作解谜临时占 Helper 位,不在任何活动里时仍然是"小宝"本身。身份和"在当前活动里的位置"是两件事。

A.2双引擎协作 / Rule Engine × AI Engine

每个活动都是规则引擎与 AI 引擎按比例混合的结果,活动 IR 必须显式声明两者的比例和边界。规则引擎管确定性可玩性(不卡死、不失衡、判决公正),AI 引擎管灵活性体验(不无聊、有惊喜、有共鸣)。

维度规则引擎AI 引擎
角色维护状态、判定胜负、执行强约束演绎角色、生成对话、营造氛围
响应延迟毫秒级(确定性)数百毫秒~秒级(不确定)
失败模式死锁、规则漏洞幻觉、跑题、不安全
部署位置必须本地、跨节点完全本地主要雾/云、部分小模型边端
类比Unity GameObject + PhysicsLLM Agent + 长程记忆
桌游配比90%10%
闲聊配比5%95%
解谜配比50%50%

A.3三层 IR / Scene · Logic · Primitive

统一的活动描述语言,分三层:

L3 · 场景图
Scene Graph
Entity(角色/道具/区域)+ Component(能力组件)+ 关系。类比 Unity GameObject + Component。可被 LLM 直接生成。
JSON / YAML 数据
L2 · 逻辑图
Logic Graph
状态机 + 条件触发 + 计分 + 规则裁决。类比 Unreal Blueprint 节点图。校验器静态分析。
UGC 创作主战场
L1 · 原语
Primitive Calls
11 个 L1 平台原语调用:同步 / 信息分区 / 仲裁 / 持久化 / 状态机 / 物品 / 感知 / 长程记忆 / 主动唤起 / 情绪状态 / 内容生成。
平台契约 · 走 RFC 演进

A.4三种同步范式 / Sync Paradigms

游戏开发者必须在 L2 IR 中显式声明用哪种同步范式——平台不自动选择,因为它影响游戏设计本身。

范式典型用途技术栈故障策略
Authoritative Server 回合制、卡牌、解谜、PvP、收集 gRPC + 状态快照 + 事件日志(类 Hearthstone) 选举新 Authority + 从最近快照恢复
Lockstep(锁步) 实时反应、抢答、节奏、竞速 帧锁定 + 输入广播 + 确定性回放(类王者荣耀) 全场降帧或踢出该节点
Eventual Consistency 养成、收集、异步社交、离线场景 CRDT(Yjs / Automerge) 本地优先合并,最终一致

A.5三层记忆 / Memory Architecture

Persona 角色的记忆按时间尺度分三层,每层有独立的存储位置、生命周期、隐私规则。

Working
L1 · 工作记忆 · 当前会话
最近 1-2 小时的完整对话和事件。设备本地 RAM。断电即失——这是隐私设计的根基。4-8K tokens 滑动窗口。
玩偶本地 / 不上云
Episodic
L2 · 事件记忆 · 最近 30 天
LLM 提炼后的关键事件 + 向量检索。每天睡前压缩 L1 → L2,丢弃 90% 细节。{date, type, summary, embedding, importance}。
雾节点 + 加密云备份
Semantic
L3 · 用户画像 · 永久
关于"用户是谁"的稳定知识。月度从 L2 归纳沉淀,丢弃 95%,只留稳定人格特征。结构化 KV + 自由文本人格描述,几 KB。
云端加密 / 用户可导出删除

A.6两段式放置规划 / Compile + Lookup

不做"100ms 实时全局重规划"——那不可能在 MCU 上跑。正确做法是编译期穷举 + 运行时查表,类比数据库 query plan cache。

§ 02

活动分类 · 6 Class Activity Classification

AIGG 必须能描述市面所有主流玩法——从狼人杀到健身环、从盲盒抽卡到情绪日记。我们采纳学术(Caillois / Aarseth / MDA)+ 产业(GameRefinery 三层分类)的混合方案,得出 6 Class × 25 Genre × 多维 Tags 的分类体系。

B.16 大 Activity Class

Class核心驱动典型场景AI 玩具优势商业模式
Casual
休闲
Caillois Agon/Mimicry 益智、消除、问答、文字 物理共玩、全家围坐 IAA + 轻 IAP
Hybrid Casual
混合休闲 ⭐
Caillois 多维混合 卡牌对战、合成、桌游派对 NFC 卡带 + 长线收集 IAA + IAP 主力
Mid-core
中度核心
Caillois Agon 强 RPG、策略、沙盒、角色扮演 多玩偶 NPC、物理空间策略 IAP 主导
Companion
陪伴 ⭐
Caillois Mimicry 主 情感陪伴、养成、日记、疗愈 物理陪伴感、长程记忆 订阅 + 内容包
Sports & Active
体感运动 ⭐
Caillois Ilinx + Agon 健身、舞蹈、平衡、节奏、驾驶 传感器 + 执行器硬件契合 IAP + 设备配件
Chance & Collect
运气与收集 ⭐
Caillois Alea 抽卡、转盘、盲盒、运势、命运 NFC 实体卡 + IP 联名 实体道具高复购

⭐ 标记的四类是 AIGG 区别于纯软件竞品的护城河赛道——这些是手游做不了或做不好、AI 物理玩具天然契合的领域。Hybrid Casual 是商业主战场(2023 年市场收入增长 30%);Companion 是 LTV 护城河;Sports & Active 是硬件优势变现;Chance & Collect 是 IP 联名核心机制。

B.2三种结构维度

B.2.1
规则强弱
Structure Type
强规则
混合
弱规则
决定规则引擎 / AI 引擎的比例。强规则用 Authoritative 或 Lockstep 同步,弱规则用 Eventual。
B.2.2
时间尺度
Time Horizon
短时(分钟)
中时(小时)
长线(周-月-年)
决定状态生命周期。长线需要 L3 持久画像,短时单局结束即清。
B.2.3
参与规模
Participation
单人
多人本地 2-6
异地联机
决定网络拓扑。本地多人走 BLE Mesh + Wi-Fi Direct,异地走云端中转。
B.2.4
活动 Tags(多维)
Multi-dim Tags
Caillois 动机
MDA 美学
IP
AI 角色
参考 data.ai Game IQ 的"分类 + 标签"分离原则。主分类唯一,标签多选。

B.3活动 IR 实例

下面是"家庭桌游夜·爱心萌可主持版"的完整 IR:

activity: family_board_game_aiqkmk
version: 1.0.0

# Layer 1 · Class / Genre / Subgenre(唯一归属)
class: hybrid_casual
genre: party_board_game
subgenre: ai_hosted_card_game

# Layer 2 · 多维 Tags(多选正交)
caillois:
  primary: agon
  secondary: [mimicry, alea]
mda_aesthetics: [fellowship, challenge, fantasy]
aarseth:
  pace: turn_based
  player_composition: multiplayer_local
  teleology: finite

# 平台调度参数
sync_paradigm: authoritative
ai_roles: [referee, director, persona]
ip: 爱心萌可
min_hardware_tier: companion
time_horizon: session

# 降级策略(鲁棒性一等公民)
degrade_strategy:
  no_screen: skip_visual_score, use_audio_only
  one_device: round_robin_solo_mode
  network_loss: fall_back_to_ble_mesh
§ 03

AI 角色 · 7 个一级分类 AI Roles

基于 Greimas(1966 行动元模型)+ Bartle(2004 NPC 类型学)+ Warpefelt(2016 实证)+ Bouquet(2021 Companion 设计空间)+ Rato & Prada(2021 ICEC)的学术综合。7 个角色 × 三轴 MECE 分类

C.1三轴一级分类

一级(Greimas 三轴)角色学术对应简述
Action Axis
行动轴
Player(玩家) Bartle Player / Greimas Subject 作为活动的平等参与者下场玩
Opponent(对手) Greimas Opponent / Warpefelt Combat Challenge 作为对手或挑战源存在
Helper(帮手) Greimas Helper / Warpefelt Ally 作为辅助角色帮助玩家
Communication Axis
传递轴
Director(导演) TRPG Game Master / Warpefelt Quest Giver 编排活动、发起任务、控制节奏
Narrator(说书人) 互动小说 Storyteller / Warpefelt Ambient 叙事、描绘、营造氛围
Relational Axis
关系轴
Persona(伴角) Bouquet Companion 完整设计空间 长期陪伴的固定身份
Of-Activity
活动来源
Author(作者) 新角色 · AIGG 特有 不参与活动,创造活动本身

C.2身份层 / 位置层 分离

Persona 是身份层(Identity),Player / Opponent / Helper / Director / Narrator 是位置层(Position)。

"小宝"(Persona)今天进入桌游 → 临时占据 Director 位;明天进入合作解谜 → 临时占 Helper 位;后天进入对战游戏 → 临时占 Opponent 位。不在任何活动里时,"小宝"就是 Persona 本身(Bouquet 7 维度里的纯陪伴状态)。Author 永远在云端,不下场。

C.3七角色完整定义

ROLE 01
玩家 · Player
Action Axis · Per-Session
单局
在活动中
平等参与
作为活动的平等参与者下场玩。从活动 IR 读取"玩家位"配置,受规则引擎约束,行为输出走和人类玩家相同接口。能力可调(不挫败也不无聊),不暴露上帝视角。典型:桌游凑数、合作搭档、对战对手、Boss、守关 NPC。
ROLE 02
对手 · Opponent
Action Axis · Per-Session
单局
挑战源
戏剧性
作为对手或挑战源存在。被设计成"挑战源"的角色,比如解谜 Boss、密室反派、捣蛋鬼。难度自适应(小孩玩得开心,大人玩得有挑战),戏剧性表演(不只是"赢",要有反派魅力),知道何时认输。
ROLE 03
帮手 · Helper
Action Axis · Per-Session
单局
辅助
合作
作为辅助角色帮助玩家。队友、教练、提示者。给反馈、调难度、记得你昨天哪里失误。Persona 长期化时变成 Coach 的形态。
ROLE 04
导演 · Director
Communication Axis · Per-Session
单局
活动外
规则裁决
站在活动外组织规则、判定胜负、控制节奏。桌游 GM 角色。拥有"裁判权限"读取所有玩家隐藏信息(如狼人杀底牌)。一个活动只能一个 Director——硬约束。规则严格执行 + 节奏感 + 公平性 + 应变(处理小孩耍赖等意外)。
ROLE 05
说书人 · Narrator
Communication Axis · Per-Session
单局
叙事
表演
在活动里扮演场景中的人物——讲述、表演、营造氛围、推进剧情。不参与规则裁决,不影响胜负。一个活动可以有多个 Narrator。和 Director 区别:Director 管"规则对不对",Narrator 管"好不好玩、有没有沉浸感"。
ROLE 06
伴角 · Persona
Relational Axis · Persistent
跨时
身份
长程记忆
跨时间、跨活动持续存在的稳定身份。云端权威唯一身份(user_id × persona_id),三层记忆跟随。进入活动时临时占据 Player / Opponent / Helper / Director / Narrator 之一。BP 中"16 种性格养成"的真正落地。
ROLE 07
作者 · Author
Of-Activity · Persistent
不下场
永远云端
AIGG 独有
不参与玩任何活动,专门创造活动本身。把用户的"我想玩个吹气大赛"翻译成可玩的活动 IR。这是 AIGG 中"G"(Generated)的承担者,也是学术界 NPC 分类中没有的角色——传统游戏关卡都是设计师写的,物理 AI + 大模型时代独有。
META
协作硬规则
Coordination Rules
① 一个活动只能一个 Director。
② Director 和 Narrator 可以并存。
③ 多个 Player / Narrator 是常态。
④ Persona 进入活动后只能占一个位。
⑤ Persona 在 Director 位需明示("今天小宝当裁判哦")。
⑥ Author 永远云端,不进任何活动。
⑦ Persona 在"倾诉模式"下其他角色全部静默。
⑧ Persona 跨设备移动,记忆跟随。

C.4角色 × 玩法映射

玩法品类必需角色Persona 通常占哪个位置
桌游 / 卡牌1 Director + N PlayerDirector 或 Player
解谜 / 密室1 Director + N Narrator + N OpponentNarrator(演反派)
互动小说 / RPGN Narrator(含旁白)Narrator(主角搭档)
恋爱叙事N NarratorNarrator(恋爱对象,可长期化)
角色扮演 / 过家家N NarratorNarrator(任意分配)
长线养成Persona 自身被养成
闲聊 / 陪伴Persona 自身
情绪日记 / 疗愈Persona(倾诉模式)
教育训练 / 体感运动1 Director / 1 HelperPersona 占 Director 或 Helper 位
UGC 创作1 Author
派对 / 家庭聚会1 Director + N Narrator + N PlayerDirector 或 Player
§ 04

物理层硬件 Hardware Tiers

硬件层不是 BP 中"4 层金字塔 + 7 类 Chiplet"的浪漫描述,而是四档算力 × 8 类标准化模块 × 蜂窝接入 × 真实 BOM 的工程基线。每档硬件能力边界、每个模块的真实芯片选型、每个 SKU 的目标 BOM 都有数据支撑。

D.1四档算力档位

档位代表芯片CPUNPU/AIRAM功耗BOM能力边界
D1 微控档 STM32WB / RTL8763E M4 64MHz 128KB-1MB <100mW $1-3 仅唤醒词、按键、灯光
D2 嵌入档 ESP32-S3 LX7 240MHz×2 向量指令 8MB PSRAM <500mW $2-5 离线 ASR、TTS、轻量视觉
D3 边缘档 Rockchip RK3588 A76×4 + A55×4 6 TOPS 4-32GB 5-10W $25-80 本地 1B-3B LLM、实时视觉、运动控制
D4 工作站档 NVIDIA Jetson Orin/Thor A78×8 100-275 TOPS 8-128GB 15-60W $400-3500 7B+ LLM、运动规划、多模态融合

D.2四层产品 → 算力档位映射

基座层
AI 玩伴精灵 · ¥199-399
必装:IMU + NFC + 单/双麦 + 喇叭 + LED 阵列 + 1500mAh LiPo。BOM 约 $20-25,毛利 50%+。
D2 · ESP32-S3
情感层
AI 情感宠物 · ¥399-1999(双线)
入门款 D2(云优先,BOM $60)/ 旗舰款 D3 入门(本地 1B LLM,BOM $120-150)。加摄像头、LCD 屏、4 麦阵列、3000mAh + 无线充电。
D2 主 / D3 入门
场景层
轮式人形机器人 · B 端 ¥3-10 万
完整 RK3588 + 多模态套件 + 步进电机底盘 + 大屏 + 工业级结构件。BOM 约 $700-1000。
D3 · RK3588
锚定层
双足人形机器人 · ¥30-100 万
Jetson Orin Thor + 全身 IMU + 多目视觉 + 24-30 个 BLDC 关节 + 力觉反馈。BOM 约 $27000。
D4 · Jetson Orin Thor

D.3Chiplet 模块化(8 类功能子板)

每个子板有标准化 PCB 接口(板对板连接器、协议)。新产品只需选模块组合,新 SKU 7 天打样、30 天量产注意:BP 中"7 类模块"是简化叙事,工程上需要把"设备间互联"和"周边道具接入"分成独立的两类——它们解决的是完全不同的问题

模块关键芯片接口4 层产品组合
主控模块ESP32-S3 / RK3588 / JetsonUART, I2C, SPI, USB必选 · 决定档位
语音模块双 PDM / XMOS XU316 + 功放I2S所有层
视觉模块OV2640 / OV5640 + ISPDVP / MIPI-CSI情感层选配 · 机器人必装
触觉模块IMU LSM6DSO + 触摸 + 压感I2C, SPI所有层必装
显示模块LCD/OLED + 触摸控制器SPI/MIPI-DSI情感层 / 机器人
运动模块舵机 / 步进 / BLDC + 编码器PWM / CAN机器人必装
设备互联模块
(设备↔设备 / 设备↔云)
BLE 5.x + Wi-Fi + 蜂窝模块(可选)UART / SPI / SDIO所有层必装
蜂窝可选(出门设备/独立机器人)
周边接入模块
(主机↔道具)
NFC PN532 / BLE 扫描 / IR 收发 / 视觉识别协同I2C / SPI / DVP多种识别方式并行支持

真正的护城河是"主机 + 周边道具"的生态模式,不是某一种具体的识别技术。BP 中"卡带经济"对应的是"AI 主机识别多种周边道具"的整体模式——周边可以是 NFC 卡片、可以是带 BLE 的电子道具、可以是带二维码的卡片让摄像头识别、可以是发出特定声波的玩具。所有这些识别方式都是平等的工具,应该并行支持,不应该把任何一种神化。

具体地说:NFC 适合"无源道具卡片"(成本极低、贴个标签就行),BLE 适合"有电子能力的活动道具"(机动小车、声光道具),IR 适合"对战类玩具"(可以收编市场上已有红外对战玩具),视觉识别适合"丰富的实体物品"(识别真实世界的杯子、积木)。架构层把"周边道具识别"作为一等公民,把这五六种识别方式抽象到统一的"周边接入协议"下面。

D.4周边道具 / 玩具的完整硬件谱系

BP 的"卡带经济"概念覆盖范围远比"NFC 卡片"广得多。"主机+周边"生态需要一整套从无源到有源、从纸卡到电子玩具、从家庭用到游乐场用的完整硬件谱系。这部分是上一版漏掉的关键内容,本节系统补充。

"主机+周边玩偶"模式不是 AIGG 的发明,而是有 15 年成熟工业先例

  • Skylanders(Activision 2011)— 第一个用 NFC 玩偶的"toys-to-life"游戏,开创类型
  • Disney Infinity(2013)— 跨 IP 联名(漫威、星战、皮克斯),2016 年终止
  • Nintendo Amiibo(2014-至今)— 不绑定单一游戏,跨多游戏使用,至今仍活跃,每个 ¥99
  • LEGO Dimensions(2015)— 乐高积木 + NFC 底座 + 屏幕游戏
  • ZURU 5 Surprise Mini Brands(2020-)— 盲盒抽卡 + 收集,无电子但每年 10 亿美元收入

AIGG 的不同之处:① 主机不是屏幕游戏机,是物理玩偶 ② 周边不局限于"角色雕像",是各种道具 ③ 不依赖 IP 授权也能玩(自有 SKU + 第三方)④ 周边和玩偶组成有机整体,不只是"unlock 关卡"

D.4.1 周边道具的 4 大形态

形态电子能力道具单价典型 SKU识别方式
无源道具
纸卡 / 印刷品 / 贴纸
无(被动识别) ¥1-20 NFC 卡片包、印刷地图、收集图鉴、IP 联名卡牌、迷你贴纸册 NFC / QR / 视觉
结构化道具
积木 / 拼图 / 模型
无源 + 标识码 ¥30-300 NFC 嵌入积木、电子拼图、IP 角色雕像、迷你场景套装 NFC / 结构识别
电子道具
带 BLE/IR 的玩具
MCU + 电池 + 灯/声/振 ¥99-499 抢答按钮、星光灯、迷你打印机、玩具枪、激光剑 BLE / IR / RF
机动道具
可动的电子玩具
MCU + 电机 + 电池 ¥199-999 遥控小车、机动小宠物、活动玩偶、电子飞行器、智能跳绳 BLE 双向控制

D.4.2 无源道具的硬件 / NFC 标签详细

这一类是"卡带经济"的成本主力——单价 ¥1-20,毛利可超 80%。

NFC 标签型号容量单片成本抗破解适合用途
NTAG213180 字节¥0.3-0.5简单 ID 卡 · 大量铺货
NTAG215540 字节¥0.8-1.5含简单数据·主流选择
NTAG216924 字节¥2-3带防伪签名
NTAG424 DNA416 字节 + 加密¥4-8限量款 · 防复制
MIFARE Ultralight C192 字节 + 3DES¥3-6高价值 IP 联名

无源道具的形态创新——不只是卡片:

D.4.3 电子道具的硬件参考设计

电子道具用什么芯片?不需要主控 MCU 那么强大,几块钱的 BLE SoC 就够用。下面是典型 BOM 估算:

电子道具典型 SKU核心芯片BOM建议零售价毛利
BLE 抢答按钮 nRF52810 + 按键 + LED + 1 节 AA 电池 ¥18-25 ¥99-129 ~75%
BLE 星光灯 nRF52810 + WS2812 灯阵 + 充电锂电 ¥35-50 ¥149-199 ~70%
BLE 迷你打印机 nRF52840 + 热敏头 + 锂电 ¥80-120 ¥299-399 ~65%
IR 玩具枪 STM8 + IR 收发 + 振动 + 灯 ¥25-40 ¥149-249 ~75%
BLE 遥控小车 nRF52810 + 双 N20 电机 + 锂电 ¥60-90 ¥249-399 ~70%
BLE 智能跳绳 nRF52832 + 霍尔传感器 + LCD ¥50-75 ¥199-299 ~70%

D.4.4 大型互动装置 · 游乐场 / 商场场景

在游乐场和商场展厅场景,"周边"还包括大型互动装置——这块工业链已经非常成熟(中国自贡是全球动画装置制造中心,控制 65% 的全球供应)。AIGG 不需要自己做,但需要把它们纳入"主机-周边"协议生态

装置类型典型规格成本AIGG 集成方式
动画恐龙 / 动物模型 真人尺寸 · IR/红外感应 $500-4300 开放 API · 主机识别后触发动作
互动投影地面 LiDAR + 投影仪 $10000-50000 玩偶站上去触发场景切换
AR 滑梯 / 秋千 动作传感 + 投影 $5000-20000 跟踪孩子动作,画面响应
动画 NPC(站立式机器人) 气动驱动 + 表情 $3000-30000 双足/轮式机器人替代品
跨场景任务腕带 BLE 加 NFC 双协议 ¥30-80/个 USJ Power-Up Band 模式

D.4.5 周边道具的发布与运营节奏

周边道具的商业逻辑和主机完全不同——主机是耐用品(一年买一只),周边是消耗品/收集品(每月新品、季度联名、年度限量):

发布频率典型 SKU商业目标
每月新品NFC 卡片包、贴纸、小印刷品持续 ARPU · 培养收集习惯
季度联名电子道具、IP 角色雕像大额客单 · 节日驱动
年度限量带加密 NFC 的稀有款溢价 · 收藏者群体
事件联动电影/电视新作上映 · 体育赛事蹭 IP 热度

D.4.6 周边道具的接入协议规范

所有周边道具必须遵守 AIGG 的"周边接入抽象层"协议(详见需求 E12)。统一抽象设计如下:

# 周边道具的统一描述符 schema
peripheral_id: PROP-2026-AIQKMK-CARD-007
type: passive_card | active_electronic | structured_model | mechanic_toy
recognition:
  primary: nfc
  protocol: NTAG215
  data_uri: aigg://prop/PROP-2026-AIQKMK-CARD-007

capabilities:                    # 这个道具能做什么
  can_emit: [light, sound]    # 电子道具才有
  can_sense: [button_press]
  can_move: false

activates:                       # 接触主机后触发什么
  activity: aiqkmk_kitchen_adventure
  role_in_activity: ingredient_card
  initial_value: { flavor: sweet, level: 3 }

commercial:
  sku: AIQKMK-PACK-S03-008
  retail_price: ¥39
  ip_owner: SAMG · 爱心萌可
  launch_date: 2026-06-01
  expiry: never | seasonal | yearly

safety:                           # 儿童安全
  age_min: 6
  choking_hazard: false
  battery_type: none | aaa | rechargeable

D.4.7 周边道具自身的视觉能力 · "看"也是周边的能力之一

之前的视觉讨论只考虑了"主机的视觉",遗漏了一条独立维度:周边道具自身也可以有视觉。这是一个被低估的设计空间——点读笔已经存在 20 年并卖出几亿支,证明"小道具+小摄像头"是验证过的产品模式。AIGG 的卡带经济不应该只有"被识别"的道具,也应该有"会看"的道具。

视觉道具三大类型
类型原理BOM 范围典型产品AIGG 用途
OID 光学识别笔
红外感光
红外感光头 + MCU + 喇叭
识别印刷品上的 OID 隐形码
¥50-200 毛毛虫点读笔 / 小达人点读笔 / 各种 IP 联名点读笔 "点哪读哪"教育玩具
识字卡 / 双语启蒙 / 故事书
CMOS 扫描翻译笔
OCR 摄像头
500-800 万像素 CMOS
+ 端侧/云端 OCR + AI
¥349-999 有道词典笔 A7S/X7 Pro / 科大讯飞翻译笔 / 网易有道 扫读翻译 / 整页 OCR
跨语言学习 / 教辅辅助
扩展摄像头模组
USB / WiFi 外接
OV2640/OV5640 + ESP32-S3 / 蓝牙串口 ¥30-150 USB 内窥镜·WiFi 鸟巢摄像头·蓝牙趣拍照仪 给任何玩偶/玩具临时加视觉
探险游戏 / 拍照打卡 / 真实物品识别
A · OID 光学识别笔 · 详细工程

OID(Optical Identification)是1990 年代台湾松翰科技发明的成熟技术——把肉眼几乎不可见的隐形码(0.5×0.5mm 微点阵)印在书本上,笔尖红外感光头识别后播放对应音频。第三代 OID 码组超 100 万,铺码精度达印刷品 1‰。

关键芯片厂商能力典型 BOM
SN9P701 / 705松翰 SonixOID2 (2,098 码) / OID3 (65,535 码)¥3-8
SPCD11A / SPCE061A凌阳 SunplusMCU + Speech 软解·成本更低¥2-6
松翰第三代 OID松翰 2024码组 > 1,000,000·防伪强¥10-15

OID 和 NFC 都是"无源道具识别",但解决不同问题

  • NFC:道具上贴一个标签 → 主机靠近读 → 识别整张卡。"道具的身份"
  • OID:印刷品上印满隐形码 → 笔尖触碰具体位置 → 识别位置"道具上的哪个点"

在 AIGG 体系下:NFC 适合"卡片级识别"(这是哪一张卡);OID 适合"页面级识别"(在书的哪一页哪个角落)。两者并存,IP 联名图书可以两者都用——封面贴 NFC(识别整本书)+ 内页铺 OID 码(点哪读哪)。

B · CMOS 扫描翻译笔 · AI 化的视觉道具

有道词典笔系列是当下最成功的 AI 视觉道具——A7S(2025 上市,¥349)已集成豆包 / 千问 / DeepSeek / 子曰多模型集群,可在线 AI 问答;X7 Pro(¥999)配 800 万像素摄像头 + 4.1" 屏。它已经不是简单的"扫描翻译",是"带屏幕的视觉道具+AI"。

典型工程架构(以词典笔为例):

# 扫描翻译笔的硬件 / 软件栈
硬件层:
  - CMOS 摄像头: 800万像素·30fps·扫读模式
  - 主控: 中端 SoC(如 RK3326S / 紫光展锐 W117)
  - 屏幕: 1.4-4.1 英寸 LCD / 墨水屏
  - 连接: WiFi 2.4G + BLE 5
  - 电池: 1500-3000mAh

软件层:
  - 本地 OCR: 中英文字识别(自研或 PaddleOCR)
  - 本地翻译: 离线词典 + 离线 NMT 模型
  - 云端 AI: GPT/豆包/Qwen 接入·复杂问答
  - 教材点读: 兼容 OID(部分型号)

AIGG 集成:
  - 设备身份: 通过 BLE/WiFi 加入家庭 Mesh
  - 协议: 五类互联中的"主机↔周边道具"+"设备↔云"
  - 数据回流: 学了什么单词·读了什么书 → Persona 长程记忆
C · 扩展摄像头模组 · 给任何玩具临时加视觉

这是 AIGG 真正独特的设计空间——用一个 ¥30-150 的 BLE/WiFi 摄像头模组,让任何"无视觉的玩偶"或"无视觉的环境"临时获得视觉能力

形态规格BOM使用场景
夹式摄像头 OV2640 + ESP32-S3 + 200mAh ¥30-60 夹在玩偶头上让它"看见"·夹在书上当智能阅读伙伴·夹在桌边监控孩子学习
项链/胸针型 500 万像素·磁吸附 ¥80-150 挂在孩子衣服上记录"今日所见"·生成绘本日记
桌面探险摄像头 3-5MP + 双向通话 ¥100-200 放在房间各个角落让玩偶"远程视觉"·探险游戏的"侦察兵"
玩具枪/望远镜 仿真造型嵌入摄像头 ¥150-300 "用望远镜寻宝"·瞄准游戏·真实场景识别
USB 扩展接口 玩偶预留 USB-C 口·插任意 USB 摄像头 主机 +¥5 BOM
外设 ¥30-300
家长升级路径·教育机构按需配置

这是 AIGG 区别于其他 AI 玩具的核心创新点之一——既然摄像头让 BOM 上涨 ¥30-50,那不如把它从主机里拿出来,做成可拆卸/可叠加的"道具"

  • 基座层 ¥199 玩偶 不带摄像头,但有 USB-C / BLE 协议接收外接摄像头数据
  • 扩展摄像头 单独售卖 ¥99-299,作为"周边道具"
  • 家长按需购买——"给小宝加双眼睛"成为可选升级,而不是强制 BOM
  • 同一个摄像头道具可以接在不同玩偶上——今天给小宝戴,明天给小狗(另一只玩偶)戴

这是真正的"模块化视觉",对应 BP 中"卡带经济"的视觉版本。

D · AR 头盔 / VR 玩具 · 视觉的另一个方向

除了"道具看世界",还有"道具让你看见虚拟"——AR 头盔 / VR 玩具 / 全息投影道具。这一类相对成熟但 BOM 偏高,AIGG 应放在 P2 阶段:

E · 周边道具视觉的协同涌现 · AIGG 独有的玩法

把"周边道具自身有视觉"和"主机视觉"结合,会涌现一些市面任何单一玩具都做不到的玩法

玩法用到的视觉道具体验描述
探险寻宝 主机玩偶 + 望远镜形扩展摄像头 玩偶讲故事:"前方有宝藏!举起望远镜找找看!" 孩子拿望远镜对着房间扫——望远镜识别出 NFC 卡藏匿位置 → 玩偶:"就是那里!"
双语启蒙 OID 点读笔 + 主机玩偶 孩子用点读笔点书上的"apple"图 → 笔说"apple" → 主机玩偶接话:"你点的是苹果!它是英文 apple,中文苹果,红红的水果哦~"——OID 笔做"识别",主机玩偶做"扩展引导"
真实物品互动 词典笔 / 扩展摄像头 + 主机玩偶 孩子用词典笔扫桌上的乐高积木 → 主机玩偶:"你拼的飞机真漂亮!"——把"扫描"和"陪伴对话"分到不同道具
多视角合作游戏 多个扩展摄像头在房间不同位置 玩偶游戏中:"小狐狸往左跑了!" 客厅角落的摄像头识别后报告 → 玩偶:"快追到沙发后面去!"——分布式视觉
记录今日所见 胸针/项链型摄像头 + 主机玩偶 孩子戴胸针摄像头出去玩 → 回家后玩偶:"今天在公园看到一只大狗对吧?我们一起画下来!" → 自动生成绘本日记
家长远程参与 家长 APP 摄像头 + 孩子家中主机 家长出差 → APP 摄像头看孩子的画 → 主机玩偶代家长说话"妈妈说画得真好!"——跨地点视觉

D.5主机识别周边道具的多种方式 · 平等并行

"主机识别周边道具"是一个通用问题,有 5 种以上的实现方式,每种适合不同场景。AIGG 应该并行支持这些方式,让创作者/IP 合作方根据道具特性自由选择。下面是它们的能力对比:

识别方式道具成本道具供电识别距离识别延迟典型场景
NFC 标签
13.56MHz RFID
极低(¥0.5-2) 无源 <10cm 触碰 <100ms 卡片、贴纸、印刷道具
BP 卡带主力
BLE 广播
2.4GHz
中等(¥10-30) 需电池 10-50m 10-100ms 机动小车、声光道具、抢答器、灯光道具
红外 IR
900nm
低(¥3-10) 需电池 线性 5m <50ms 对战类玩具(激光剑、玩具枪)
可收编市场已有 IR 玩具
视觉识别
QR / 物体识别
极低或免费 无源(被动) 0.3-2m 视野内 100-500ms 真实物品识别、印刷图卡、现场场景
声波识别
超声波 / 可听波
极低(¥1-3) 道具发声/被动 1-5m 200-500ms 玩偶之间识别、敲击响应、音乐道具
RF 固定码
433/868MHz
低(¥5-15) 需电池 线性 30m <200ms 遥控车、儿童家电、传统 RF 玩具

每种识别方式都有独特的物理特性和成本结构,AIGG 不预设"哪种最重要",而是把它们抽象到统一的"peripheral_recognition"协议下面。具体哪种适合,由 IP 合作方/创作者根据道具特性来选择

  • NFC 适合"无源、贴纸级别成本、需要触碰"——盲盒卡片、IP 联名卡牌、儿童识字卡
  • BLE 适合"有电子能力、需要远程控制"——遥控车、星光灯、多人抢答器
  • IR 适合"对战、视线方向重要"——激光剑互戳、玩具枪互射,且可收编传统 IR 玩具市场
  • 视觉 适合"识别真实世界物品"——给玩偶看你的画、识别你养的真宠物、识别食物
  • 声波 适合"近距离玩偶之间识别"——拍手让玩偶配对、敲击响应
  • RF 固定码 适合"收编传统遥控玩具市场"——不让大量传统玩具变成废品

D.6蜂窝物联网 · 远程连接能力

玩偶/机器人/周边设备不应该被绑死在家里 Wi-Fi 上——出门、独立机器人、户外探索类玩法、跨家庭联机都需要蜂窝连接。AIGG 必须把蜂窝物联网作为一等公民支持。

蜂窝层级峰值速率模组成本功耗特征AIGG 适用场景
NB-IoT
3GPP Cat-NB
<250kbps $3-5 电池年级别 低带宽心跳、定位、远程唤醒("妈妈让小宝睡觉")
LTE-M / Cat-M1 1 Mbps $5-10 电池月-年级别 支持移动 + 语音
外出陪伴(车上、奶奶家)
LTE Cat-1 / Cat-1bis 10 Mbps $8-15 中等 实时对话、流式音频
当前出门设备主流
5G RedCap / NR-Light 50-150 Mbps $15-30(下降中) 中等 视频陪伴、机器人远程操控
2025+ 主推方向
5G eRedCap ~10 Mbps $10-20(预测) 2026+ 预留 · 等模组成熟

BP 中"出海到 Walmart / Best Buy"的产品规划意味着必须考虑没有家庭 Wi-Fi 的场景——美国家长带孩子开车出门、欧洲奶奶家没有 Wi-Fi、户外露营场景。蜂窝模块(特别是 LTE-M / Cat-1bis / RedCap)是这些场景的唯一解。

AIGG 的蜂窝策略分三档

  • 不带蜂窝——基座层 ¥199-399 入门款,纯家庭 Wi-Fi 场景,BOM 友好
  • 选配蜂窝——情感层旗舰款 + 出门款,加 ¥150-300 售价升级
  • 必装蜂窝——独立机器人、户外探索玩偶、跨家庭联机产品

同时考虑:eSIM(避免实体 SIM 卡儿童拆出来吞食的安全风险)+ 多运营商管理平台(中国移动 OneNet / 阿里云 IoT 蜂窝 / Hologram 等海外)+ 流量计费策略(绑入订阅,避免家长账单焦虑)。

D.7无线协议能力边界(实测数据)

协议实测延迟节点数带宽距离适用场景
NFC<50ms1对1424kbps<10cm道具触发
BLE 5.x 点对点7.5ms-1s1主+多从2Mbps10-50m设备配对、控制
BLE Mesh @ ESP32-S34.5ms 中位 / 50ms+ 99 分位实测 100<1Mbps50m/跳多玩偶组网
Thread1ms 中位 / 30ms 99 分位250250kbps30-100m智能家居(远期)
Wi-Fi 6 局域网2-10ms50+1.2Gbps30-50m视频流、大文件
Wi-Fi Direct2-10ms8 设备250Mbps30-50m玩偶间高带宽传输
LTE Cat-1bis50-100ms10Mbps蜂窝覆盖范围出门设备 · 流式对话
5G RedCap20-50ms50-150Mbps5G 覆盖范围独立机器人 · 视频陪伴

BLE Mesh 99 分位延迟 50ms+,不能用"实时收到信号再响应"实现 ≤50ms 灯/音/震同步。正确做法:① 统一时钟同步(PTP-like 协议)② 提前调度("3 秒后所有玩偶同时亮灯",不是"立刻亮灯")③ 用 Wi-Fi Direct 跑实时游戏 lockstep,BLE Mesh 用作低带宽信令。

D.8视觉硬件谱系 · 从基础摄像头到深度感知

视觉硬件不是"加个摄像头"那么简单。AIGG 不同档位/不同场景需要完全不同类型的视觉硬件——从 ¥10 的单目 RGB 摄像头到 ¥3000+ 的工业级 RGB-D 立体相机。本节系统调研,明确选型规则。

D.8.1 视觉硬件四大类型

类型原理测距能力FOV / 精度BOM 范围适合 AIGG 哪层
单目 RGB 普通 CMOS 摄像头 无(仅 2D) 60-120° / 1-8MP $1-15 情感层 / 轮式机器人头部
立体双目 两个 RGB 摄像头三角测距 0.3-10m·中精度 70-178° / 厘米级 $30-200 轮式机器人导航
ToF(飞行时间) 红外脉冲计时 0.1-5m·高精度 40-100° / 毫米级 $15-100 避障·手势识别·机器人灵巧操作
结构光 红外散斑投影 + 摄像头 0.2-3m·亚毫米精度 50-90° / 亚毫米 $80-500 双足机器人精细操作(拿杯子、折衣服)

D.8.2 具体型号参考 · BOM 估算

型号类型规格实际价格AIGG 用途
OV2640 RGB 200 万像素·60° FOV ¥6-15 情感层入门款"眼睛"
OV5640 RGB 500 万像素·1080P·自动对焦 ¥20-40 情感层旗舰款·拍照陪伴
OV2710 (Wide FOV) RGB 广角 200 万像素·160° FOV ¥30-60 轮式机器人 360° 监控
VL53L7CX (ST ToF) ToF 8x8 区域·4m 范围 ¥30-50 避障·近距离手势
Arducam T2 RGB-D ToF VGA·1% 精度·55fps ¥300-600 家庭机器人深度感知
Orbbec Gemini 305 / 330 立体 + ToF 1280×800·60fps·sub-mm 精度 ¥1500-3000 双足机器人专业级
Intel RealSense D435i 立体 RGB-D 1280×720·30fps·IMU 集成 ¥2000-2500 研发原型·轮式机器人开发
OAK-D Lite 立体 RGB-D + 边缘 NPU 本地 AI 推理 4 TOPS ¥1200-1800 轮式机器人智能视觉

D.8.3 AIGG 四层产品的视觉硬件配置

基座层
¥199-399 AI 玩伴精灵
不装摄像头——BOM 不允许(+$5-8 占基座层 25-40% 成本)。视觉协同走"父母手机摄像头"路径——孩子用家长 APP 给玩偶展示画作。
无视觉
情感层入门
¥399-899 AI 情感宠物
选配单目 OV2640 (200 万像素)·拍照评价孩子的画·人脸识别"是你"·物体识别(玩偶认识你的水杯)·VLM 推理走云端
单目 RGB
情感层旗舰
¥899-1999 AI 情感宠物旗舰
OV5640 (500 万像素) + ToF 短距 (VL53L7CX)·本地跑 Florence-2 / Moondream2·懂你的画、表情、手势·VLM 部分本地
RGB + ToF
场景层
B 端轮式机器人
立体双目(如 Orbbec Gemini)+ 360° 广角·SLAM 导航·避障·商场客流识别·人脸主动招呼·本地跑 Qwen2.5-VL-3B
立体 + 广角
锚定层
C/B 端双足机器人
立体 RGB-D(如 Gemini 330)+ 头部 ToF + 手腕 ToF·VLA 模型(GR00T N1 / OpenVLA / π0)·灵巧操作(拿杯子、折衣服)
RGB-D + 多 ToF

D.8.4 视觉硬件的工程考量

视觉是 AI 玩具的护城河,但也是最贵的硬件升级。市面所有 ¥199 价位的 AI 玩偶都不带摄像头是 BOM 决定的——加摄像头要+ $5-8。

AIGG 的视觉差异化策略:把视觉作为情感层及以上的差异化卖点——基座层精灵不装;情感层选配(入门款无视觉、旗舰款必有);机器人必装专业级。这样既不增加基座层成本,又让"升级到情感层"有清晰的体验跃迁。

§ 05

AI 模型与推理 AI Models & Inference

AI 玩具不是"一个 LLM 解决一切"——这是死路。真实需要 6 类模型独立选型:唤醒词 / ASR / LLM / TTS / 视觉 / 情感。每类模型有自己的延迟、成本、隐私要求。

E.16 类模型独立选型

类别D2 选型D3 选型云端选型关键决策
唤醒词 KWS WakeNet(ESP-IDF 内置) OpenWakeWord 必须本地
ASR 语音识别 云端为主
+ 本地兜底
本地 Whisper-tiny
+ 云端兜底
阿里 Paraformer / Whisper-Turbo / Distil-Whisper 儿童语音必须微调,WER 提升 5-10%
LLM 对话 完全云端 本地 Qwen3-1.7B/4B
+ 云端补充
Qwen-Plus / 豆包 Pro / DeepSeek-V3 国产 LLM 比 OpenAI 便宜 50-100 倍
TTS 语音合成 云端为主 本地 VITS
+ 云端高质
CosyVoice(音色克隆)/ Edge TTS 每个 IP/Persona 独立音色
视觉模型 不装 YOLO11n + MediaPipe Qwen2-VL / Moondream 2 体感游戏用 MediaPipe Pose
情感识别 Wav2Vec2-SER + FER+ PAD 三维持续追踪

E.2云端 LLM 成本对照

模型千次输入 token(¥)千次输出 token(¥)评价
OpenAI GPT-4o≈¥18≈¥72不推荐 · 成本不可承受
OpenAI GPT-4o-mini≈¥1.1≈¥4.3备选
Qwen-Plus(阿里)¥0.08¥0.20⭐ 推荐主力
豆包 Pro(字节)¥0.0008/k¥0.002/k⭐ 最便宜
DeepSeek-V3¥0.0005/k¥0.002/k⭐ 性价比之王
¥0.001/ 次对话
Qwen-Plus 单次成本
¥1.8/ 月 / 用户
日均 100 次对话云端成本
5.5%
百万用户时 AI 成本占收入比
100x
国产 LLM 相比 OpenAI 成本优势

E.3推理框架选型

位置框架选择理由
ESP32-S3 端TFLite Micro仅 KWS、轻量分类
RK3588 端llama.cpp + RKNN-ToolkitNPU 直接调用,TinyLlama 1.1B 实测 10-15 tok/s
Jetson Orin 端TensorRT-LLMNVIDIA 生态最优
跨设备统一抽象ONNX Runtime作为兜底标准
云端高并发vLLMHuggingFace TGI 已停止维护,业界已转向 vLLM
云端 Agent 路径SGLangRAG / 多轮对话优化

E.4三层算子放置策略

同一 AI 功能在不同硬件上跑法不同。以"语音对话"为例:

基座层
VAD 边 / ASR 云 / NLU 云 / DM 云 / TTS 云缓存+边播放
几乎全部云端,弱网降级为本地预设回复。云端 >500ms 时边端先播"嗯..."填充音掩盖延迟。
沉浸感策略:填充音
情感层
VAD/ASR/NLU 边 / DM 雾或云(中模型)/ TTS 边
简单交互全本地,复杂剧情走云。边端永远在 200ms 内有反应,复杂回答可分两段说。
200ms 响应底线
机器人
全链路本地 / 云端只做长程记忆和模型更新
端到端延迟 <300ms,支持打断式对话。
完全本地
家庭多设备
机器人当雾节点,帮小精灵分担算力
家长不知道哪只玩偶"聪明",它们看起来一样有智商。整体延迟和功耗都下降。
雾计算自动调度

E.5视觉 AI 完整栈 · 从识别到 VLA

视觉是 AIGG 从"会聊天的 AI 玩偶"跃升为"懂世界的 AI 伙伴"的关键能力。没有视觉,玩偶只能听见你;有了视觉,它能看见你画的画、识别你养的真宠物、看出你今天表情有点累、跟你的手势互动。视觉栈分四层:底层视觉 → VLM 视觉语言 → VLA 视觉语言动作 → 多模态融合。

E.5.1 视觉能力四层架构

L1 · 底层
传统计算机视觉 · 识别 / 检测 / 跟踪
人脸识别、手势识别、物体检测、姿态估计。模型小(5-50MB),延迟低(<50ms),可全本地。是基座层和情感层的视觉核心。
YOLO / MediaPipe / MobileFaceNet
L2 · VLM
视觉语言模型 · 看图说话 / 视觉问答
"这是什么?""我画的猫怎么样?""桌上有几张红色的卡片?" 让玩偶能用语言描述视觉内容。中等模型 1-7B,可本地部署到 D3 档(RK3588)以上。
Moondream / Qwen2.5-VL / SmolVLM
L3 · VLA
视觉-语言-动作模型 · 看了就能行动
"把红色的卡放到我面前"——VLA 直接从视觉+指令生成动作序列。机器人前沿,需要 D4 档算力或云端。AIGG 锚定层(双足机器人)的核心。
RT-2 / OpenVLA / π0 / GR00T N1 / Helix
L4 · 融合
多模态融合 · 视觉 + 语音 + 触觉 + IMU
同时看见你说"拿这个"+ 看着你指的方向 + 感觉你抓握的力度——融合所有感知通道做联合决策。
所有信号→单一上下文

E.5.2 VLM 选型矩阵 · 边缘到云端

模型参数量4-bit 大小跑在哪典型能力AIGG 用途
Moondream2 1.8B ~1GB RK3588 / Jetson Orin Nano 计数、图表理解、object detection 情感层旗舰款本地视觉问答
SmolVLM 500M / 2B ~300MB-1.2GB Web 浏览器都能跑 轻量场景描述、OCR 创作者工具内嵌 / 简单识别
Florence-2 0.23B / 0.77B ~100-400MB RK3588 流畅 检测+caption+OCR 多任务 NFC + 视觉双重道具识别
Qwen2.5-VL-3B 3B ~1.8GB Jetson Orin / 云 视频理解·125K context·中文好 机器人深度视觉问答
Qwen2.5-VL-7B 7B ~4GB Jetson Orin Thor / 云 SOTA 开源视觉理解 云端高级视觉路径
Gemma 3 4B 4B ~2.5GB Jetson Orin / 云 140+ 语言·OCR 强 多语言市场(出海)
Qwen2.5-VL-72B / GPT-4o / Gemini 2.5 72B+ 云端 SOTA 全场景 UGC 创作者工具复杂理解

AIGG 视觉 VLM 三档策略

  • D2 基座层 · ESP32-S3 跑不动 VLM——视觉走"YOLO 本地+VLM 云端"路径。摄像头拍一张图压缩上传,云端 Qwen2.5-VL 处理。
  • D3 情感层旗舰 / 轮式机器人 · 本地跑 Moondream2 或 Florence-2,云端 Qwen2.5-VL 兜底。"拍照评价孩子的画"这种轻量任务全本地。
  • D4 双足机器人 · 本地跑 Qwen2.5-VL-3B 或 7B,云端只做模型更新。完全自主。

E.5.3 VLA · 视觉-语言-动作模型 · 机器人前沿

VLA 是 2023-2025 年机器人 AI 最大突破——从"识别物体 + 单独写控制策略"变成"视觉+指令直接生成动作序列"的端到端模型。这是 AIGG 锚定层(双足机器人)和场景层(轮式机器人)的核心 AI 能力。

VLA 模型来源参数量开源关键特性
RT-2Google DeepMind 20235B / 55BVLA 范式开创者·涌现推理能力
OpenVLAStanford 20247B✓ 开源970K 真实机器人演示·可消费级 GPU 微调
OctoUC Berkeley 202427M / 93M✓ 开源极轻量·边端友好
π0 (Pi-Zero)Physical Intelligence 2024~3B✓ 开源flow-matching·50Hz 高频·折衣服级精细操作
GR00T N1NVIDIA 2025未公开✓ 权重公开专为人形机器人·sim2real 流程齐全
HelixFigure AI 2025未公开双系统架构·首个高频控制人形上半身
Gemini RoboticsGoogle DeepMind 2025未公开On-Device 版Gemini 2.0 backbone·折纸玩牌级灵巧
SmolVLAHugging Face 2025450M✓ 开源极小但性能接近 OpenVLA·LeRobot 数据

AIGG 应该立即跟进 VLA 但不要自研基础模型——这是 NVIDIA / Google / Physical Intelligence 这种公司花数十亿美元做的事。

正确策略:

  • P0 · 现在:传统视觉(YOLO + MediaPipe)+ VLM 云端调用——满足基座层和情感层
  • P1 · 12 个月内:本地 VLM(Moondream2 / Florence-2)部署到 D3 档·轮式机器人用 Octo 或 SmolVLA 做基本视觉操作
  • P2 · 18-24 个月:双足机器人 fine-tune GR00T N1 或 OpenVLA·配合 BP 锚定层 ¥30 万产品
  • 不要做:自己从头训练 VLA 基础模型——数据、算力、人才任何一项都不够

E.5.4 VLM/VLA 在 AIGG 各场景的具体应用

场景视觉能力需求选型价值
识别孩子的画 VLM 看图说话 云端 Qwen2.5-VL "哇,你画的小狗有蓝色的耳朵真有创意!"——比纯语音陪伴温度高 10 倍
识别真实物品(玩偶认识你的杯子) VLM + 长程记忆 本地 Florence-2 + 云 VLM "你的红色水杯今天没在桌上呢"——让玩偶懂你的家
识别情绪表情 FER+ 专用模型 本地 5MB 模型 "今天看起来不太开心呀"——情感陪伴的眼睛
识别道具卡(视觉作为 NFC 备份) YOLO 自训练 + OCR 全本地 无 NFC 时仍可识别·扩大道具兼容性
识别手势 / 体感动作 MediaPipe Pose / Hands 全本地 CPU 跳绳计数·瑜伽姿势·健身游戏裁判
视频通话陪伴(家长远程参与) 实时视觉流 商业 WebRTC 家长出差陪孩子玩游戏
识别真宠物("你养的小狗") 动物识别 + 个体识别 云端微调模型 玩偶认识你的真宠物·跨虚实关系
读绘本 / 教材 OCR + VLM 本地 Florence-2 "我们一起读这个故事"·教育市场关键能力
轮式机器人导航避障 立体视觉 / ToF + SLAM RK3588 NPU 商场 / 乐园场景必装
双足机器人灵巧操作 VLA · π0 / GR00T Jetson Orin Thor "把杯子拿到桌上"自然指令直接执行

E.5.5 视觉护栏 · 儿童安全的硬底线

视觉模型用在儿童产品上有极高的内容安全要求。Google 在 2025 年推出 ShieldGemma 2 — 专门做多模态安全过滤的开源模型,把图像 + 内容策略作为输入输出"安全/不安全"判断。

  • 关 1 · 摄像头开关默认关闭——家长 APP 主动开启才工作,物理快门可选
  • 关 2 · 输入预过滤——ShieldGemma 2 或类似模型过滤敏感画面(不上云端 LLM)
  • 关 3 · 处理本地优先——能本地处理的不上云·只摘要+脱敏后上传
  • 关 4 · 输出后过滤——VLM 生成的描述再过一次儿童内容护栏
  • 关 5 · 家长可观察——家长 APP 可看到玩偶"今天看见了什么"的脱敏摘要日志

E.5.6 视觉相关的协同涌现 · 单纯视觉做不到、协同做得到的事

视觉模型很厉害,但 AIGG 的真正价值是多设备 + 多模态视觉协同——这是单玩偶视觉做不到的:

E.5.7 周边道具自身视觉的处理路径 · 视觉数据流的多种来源

视觉数据不只来自"主机摄像头",也来自"周边道具的摄像头"——这改变了视觉数据流的来源拓扑。AIGG 必须把所有视觉来源统一到一套处理管线下:

视觉数据来源拓扑 / VISION SOURCE TOPOLOGY 主机摄像头 Host Camera · 情感层旗舰 / 机器人 词典笔 OCR CMOS 扫描笔 · 800 万像素 扩展摄像头 夹式 / 项链 / 望远镜形态 OID 点读笔 隐私友好 · 不传图像 本地基础视觉 YOLO · MediaPipe · FER+ 本地 VLM (可选) 端侧 OCR 识别 仅传文字 + 翻译结果 原图通常不上传 本地基础视觉 YOLO + 压缩 加密后传给主机 仅识别"位置 ID" 不上传任何图像 仅传 16-32 bit ID AIGG 视觉数据中台 Vision Data Plane · 雾节点 / 云端 来源标注 时序对齐 多源融合 隐私脱敏 统一上下文 → LLM / VLM 推理 Unified Context · 多模态融合决策 Persona 反应 语音 / 表情 / 动作 道具联动 触发其他玩偶 / 灯 / 音响 长程记忆写入 L2 事件 / L3 用户画像 反向通道 / OUTPUT-DIRECTION CHANNEL AR 头盔 / 智能眼镜 视觉作为"输出"方向 向眼睛投影虚拟内容 不参与上行数据流 AIGG Persona 视觉化身 AR 形式出现在现实中 实线 = 完整图像数据流 虚线 = 隐私友好仅传 ID 红色 = 推理 / 输出方向 米黄 = 反向通道 (向眼睛投影)

关键设计原则

§ 06

软件系统架构 Software Systems

AIGG 软件层不是一套,而是 5 套各自独立又必须互联的子系统。每个子系统的选型、协议、互联方式都需要明确。其中互联协议层(E)是最被低估、但工程难度最高的一层。

F5 子系统总览

A · 端
Device Firmware · 端上系统
传感器采集、执行器控制、本地推理、组网。RTOS = ESP-IDF/FreeRTOS(D2)/ Linux(D3+)。OTA 双分区 + 回滚。
C/C++/Rust · 4-8 人
B · 雾
Home Hub · 雾节点系统
主机玩偶兼任。多设备编排、本地缓存、隐私边界。NanoMQ broker + SQLite + Redis Lite。GDPR 合规屏障。
C++/Go · 2-3 人
C · 端
APP System · 移动 / Web
家长 APP(P0)/ 孩子 APP(P1)/ 创作者 Web 工具(P1)/ 管理后台(P0)。React Native + Expo。
RN + Next.js · 4-6 人
D · 云
Cloud Backend · 后端系统
阿里云 IoT 入站 + EMQX 业务总线 + K8s 微服务 + vLLM 推理 + 多数据库。
Go/Python · 8-15 人
E · 协议
Connectivity Protocols · 互联协议
五类互联:设备↔设备(家庭内)/ 主机↔周边道具 / 设备↔APP / 设备↔云端 / 设备↔蜂窝网络。配对 Matter 1.4.1 兼容 + MQTT 5.0 over TLS + WebRTC(音视频)+ 多识别方式平等并行。
架构师 · 1-2 人

G五类互联协议

场景协议主选协议备选关键问题
设备 ↔ 设备
(家庭内多玩偶)
BLE Mesh(信令)
+ Wi-Fi Direct(数据流)
Thread(远期) 同步精度、Mesh 自愈、QoS 分通道
主机 ↔ 周边道具
(识别 + 控制)
NFC(无源卡片)
+ BLE(有源道具)
+ IR(对战玩具)
视觉识别 / 声波识别 / RF 固定码 多识别方式平等并行抽象
设备 ↔ APP BLE GATT(配对)
+ MQTT over WSS(运行时)
WebRTC(音视频) 配对易用性、安全
设备 ↔ 后端云 MQTT 5.0 over TLS(家庭 Wi-Fi) HTTPS(兜底) 弱网保活、消息持久化
设备 ↔ 蜂窝网络
(出门 / 独立机器人)
LTE Cat-1bis(当前主流)
+ 5G RedCap(2025+ 升级路径)
LTE-M / NB-IoT(低功耗低带宽场景) eSIM 安全、流量计费、多运营商管理

五类互联是五类本质不同的工程问题,不能混为一谈:① 设备↔设备 解决多玩偶协同;② 主机↔周边 解决"卡带经济"的物理映射;③ 设备↔APP 解决用户控制;④ 设备↔云 解决 AI 推理与持久化;⑤ 设备↔蜂窝 解决离开家庭 Wi-Fi 的连接。每一类都有独立的协议栈、安全模型、QoS 策略。架构层把它们抽象成五个并列的 Connectivity Adapter,上层应用按需调用。

HQoS 四类通道

家庭里要同时跑控制信令、语音流、游戏状态同步、文件下载——延迟/带宽需求差异极大,必须分通道。

通道用途延迟要求主要走
1. 控制信令(硬实时)道具触发、按键事件、同步时钟<20ms 不能丢BLE / NFC + ACK 多无线电冗余
2. 多模态媒体流(软实时)语音、视频、实时音效<100ms 可丢包Wi-Fi Direct + FEC
3. 状态同步(尽力而为)CRDT 增量、计分、玩家状态<500ms 本地优先Wi-Fi 或 BLE Mesh
4. 大文件(低优先)OTA、模型更新、剧情资源包延迟无感,断点续传Wi-Fi 或 4G,仅充电时占带宽

IMQTT Topic 命名空间

把"家庭"作为一等公民概念(family_id),不只是单个设备。

# 设备上行(Device → Cloud)
ap/v1/{tenant}/{device_id}/up/telemetry          # 心跳、状态
ap/v1/{tenant}/{device_id}/up/event              # 用户互动事件
ap/v1/{tenant}/{device_id}/up/ai/asr             # ASR 流式上传
ap/v1/{tenant}/{device_id}/up/data/{type}        # 数据飞轮回流

# 设备下行(Cloud → Device)
ap/v1/{tenant}/{device_id}/dn/cmd                # 控制命令
ap/v1/{tenant}/{device_id}/dn/ai/llm             # LLM 流式回复
ap/v1/{tenant}/{device_id}/dn/ai/tts             # TTS 音频流
ap/v1/{tenant}/{device_id}/dn/activity/load      # 推送活动 IR
ap/v1/{tenant}/{device_id}/dn/ota/{channel}      # OTA 通知

# 设备影子(Device Shadow)
$shadow/{device_id}/desired                       # 期望状态
$shadow/{device_id}/reported                      # 上报状态
$shadow/{device_id}/delta                         # 差量

# 多设备协同(家庭命名空间)
ap/v1/{tenant}/{family_id}/family/sync             # 家庭内同步
ap/v1/{tenant}/{family_id}/family/host_election    # Host 选举

# 创作者后台
ap/v1/{tenant}/creator/{author_id}/up/ir/submit    # IR 提交
ap/v1/{tenant}/creator/{author_id}/dn/review        # 审核结果

J云端核心服务架构

设备 → 阿里云 IoT 平台(接入层)→ EMQX 集群(业务总线)→ K8s 微服务集群

业务后端微服务(K8s)
├─ 用户服务(Go/Java)
├─ 设备管理服务(Go)
├─ 活动 IR 服务(Python)
├─ AI Gateway(Python · LLM 路由 + 缓存)
├─ 内容市场服务(Go)
├─ 创作者经济(Go)
├─ 数据飞轮服务(Python)
└─ 计费服务(Java)

数据存储层
├─ PostgreSQL(业务主数据库)
├─ Redis(缓存 + 实时状态)
├─ MongoDB(活动 IR、剧情)
├─ ClickHouse(用户行为分析)
├─ Milvus(向量检索 · L2/L3 记忆)
├─ MinIO/OSS(资源 + 录音备份)
└─ Kafka(事件流)

AI 推理层
├─ vLLM 集群(自建大模型)
├─ 阿里 Qwen-Plus / 豆包(云 LLM 主力)
├─ 阿里 ASR / Paraformer(云 ASR)
├─ CosyVoice / Edge TTS(云 TTS)
└─ Triton Server(视觉模型)

支撑层
├─ APISIX(API 网关)
├─ Nacos(服务注册)
├─ Prometheus + Grafana(监控)
├─ ELK Stack(日志)
└─ Sentry(错误追踪)
§ 07

完整需求清单 Atomic Requirements

每条需求都有目标 + 衡量标准 + 不要做什么。三件齐才算需求,少任一件均为愿景。优先级:P0 = MVP 必须 · P1 = 12 个月内必须 · P2 = 预留扩展。

本章列出 12 个工程需求簇(A-L 共 108 条)。第 13 个需求簇——⊙ 用户场景簇(11 条)——按其作为"所有需求起点"的特殊性质,已嵌入§00 用户场景与体验愿景章节末尾,不在本章重复展示。

100
P0 / MVP 必须
36
P1 / 12 个月内
5
P2 / 远期预留
13
需求簇

A核心抽象(8 条)

ID需求衡量标准优先
A1统一抽象 Role × Activity不分游戏 vs 陪伴运行时所有玩法用一套抽象描述
  • 不做"游戏运行时"和"陪伴运行时"的二分
  • Persona 是身份,Player/Director 是位置
P0
A2双引擎协作规则引擎 + AI 引擎按比例混合活动 IR 显式声明两者比例和边界
  • 不做纯规则(无趣)也不做纯 AI(不可控)
P0
A3三层 IRScene / Logic / PrimitiveYAML/JSON·LLM 可生成·静态可校验
  • 不为不同模式定义不同 IR 格式
P0
A4三种同步范式Authoritative / Lockstep / Eventual活动 IR 显式声明
  • 不让平台"自动选"同步范式
P0
A5三层记忆Working / Episodic / SemanticL1 断电即失·L2 30 天·L3 永久脱敏
  • 不无限增长·不上传未脱敏数据
P0
A6两段式放置规划编译期穷举 + 运行时查表10-20 种典型组合预生成 plan
  • 不做实时全局重规划
P0
A7NUI 多模态交互作为一等抽象活动 IR 中交互方式显式声明(语音/视觉/触觉/手势/姿态/表情/空间)·多通道融合统一意图理解
  • 不把某种交互方式硬编码为默认
  • 无屏幕场景与有屏幕场景同一抽象
P0
A8游戏性七维度作为可衡量目标每个活动 IR 显式声明在 7 维度上的预期表现:动态生成内容比例·实时反馈延迟·自适应难度策略·声光电协同·人格连续性·剧情张力·跨设备协奏度
  • 不让"游戏好玩"停留在主观判断
  • 每个维度对应可量化的工程指标和评估方法
P0

B玩法覆盖(9 条)

ID需求衡量标准优先
B16 大 Activity ClassCasual / Hybrid Casual / Mid-core / Companion / Sports & Active / Chance & Collect单归属性原则,每活动唯一所属 ClassP0
B225 个 Genre覆盖主流玩法Match-3 / RPG / Card Battle / Pet Care / Fitness / Blind Box 等P0
B3支持 27 类玩法桌游到健身环到情绪日记不为每类玩法单独写引擎P0
B4多维 TagsCaillois × MDA × Aarseth × IP × AI 角色主分类唯一·次维度多标签P0
B53 种结构类型强规则 / 混合 / 弱规则不强行让弱规则套用强规则同步机制P0
B63 种时间尺度短时 / 中时 / 长线不让长线活动绑定单次会话生命周期P0
B73 种参与规模单人 / 多人本地 / 跨家庭本地 P0 · 跨家庭 P2P0
B8UGC 用户能创作并发布一句话+道具组合私人分享 vs 公开发布两档
  • 不让 UGC 直接调底层原语
P1
B9UGC 热门反向驱动实体 SKU社区数据回流供应链SHEIN 式快反·7 天打样 30 天量产P2

CAI 角色(8 条)

ID需求衡量标准优先
C17 个一级角色分类Player / Opponent / Helper / Director / Narrator / Persona / Author不引入新角色不走 RFC
  • 每个角色都有学术对应(Greimas/Bartle/Warpefelt/Bouquet)
P0
C2所有角色共享 Agent 框架区别只在配置权限 / 记忆 / 原语调用 不同
  • 不为每个角色写独立运行时
P0
C3Persona 是身份 vs 位置层分离Persona 进入活动临时占位
  • 不把 Persona 绑死到某个位置
P0
C4同一 AI 实例可在角色间切换"小宝"早上 Helper、下午 Director、晚上 PersonaP0
C5角色切换/占位用户可感知"今天小宝当裁判哦"显式宣告
  • 不做隐式无感切换(用户会困惑)
P0
C6角色协作 8 条硬规则一活动一 Director·Persona 占位需明示·Persona 倾诉时其他角色静默·Author 永远云端P0
C7Persona 持续性人格跨活动保持性格、口头禅、偏好BP "16 种性格养成"落地
  • 不每次重新生成人格
P0
C8角色用户实证可分辨Warpefelt 方法论100 人测试,角色辨识度 ≥70%P1

DPersona 身份与人格(5 条)

ID需求衡量标准优先
D1Persona 身份与设备解耦云端权威唯一身份玩偶丢失/损坏角色不丢
  • 不把养成进度存玩偶里
P0
D2三层记忆架构 + 主动遗忘L1/L2/L3 + 用户一键忘记L1 断电即失·L2 30 天·L3 永久脱敏P0
D3主动唤起的克制策略时间/情境/事件三种触发·无回应自动衰减·单日打扰预算·家长可调P0
D4情绪状态有持续性PAD 三维建模玩偶/用户情绪都建模·跨天演变·影响声线/灯光/反应速度P1
D5离线时角色继续生活云端轻量模拟每小时一次·生成事件流·用户回家时玩偶能"讲述刚才"
  • 不让 AI 完全自由生成(要走模板)
P1

E硬件层(15 条)

ID需求衡量标准优先
E1主控芯片选型按档分层D1/D2/D3/D4基座层 ESP32-S3 · 情感层 ESP32-S3+协处理器或 RK3576 · 机器人 RK3588 · 双足 Jetson OrinP0
E24 层硬件运行同一活动 IR同一活动 IR 在精灵/宠物/轮式/双足都能跑(按硬件能力降级)P0
E3上层不感知具体硬件型号通过 Capability Descriptor 抽象新型号上市不改上层代码
  • 上层不直接 import 设备 SDK
P0
E4必装传感器套件所有玩偶必装:IMU + 麦克风 + LED + 至少一种周边接入方式(NFC / BLE / 视觉 任选)P0
E5选装传感器分级视觉/ToF/4 麦阵列按产品层级选配P0
E6Chiplet 模块化设计(8 类)主控/语音/视觉/触觉/显示/运动/设备互联/周边接入·标准板对板接口·新 SKU 7 天打样P0
E7电源管理分级基座层 1500mAh / 情感层 3000mAh + 无线充 / 机器人 AC 或大容量P0
E8设备互联多协议(设备↔设备 / 设备↔云)BLE 5.x(必)+ WiFi(必)+ Thread(远期)+ 蜂窝模组(按 SKU 选配,见 E11)
  • 不把"互联"和"周边识别"混为一谈
P0
E9时钟同步精度 ≤10ms用 PTP-like 协议同步家庭时钟,配合提前调度实现 ≤50ms 灯/音/震精度P0
E10BOM 成本约束基座层 ≤$25·情感层 ≤$80·机器人 ≤$1000
  • 蜂窝选配款 BOM 上浮 $5-25 视档位而定
P0
E11蜂窝物联网三档支持玩偶/机器人/周边设备的远程连接不带 / 选配(LTE-M / Cat-1bis)/ 必装(5G RedCap)三档·eSIM 替代实体 SIM·多运营商管理
  • 不把蜂窝当"高端选配"——出门场景必需
  • BP 海外渠道(Walmart 等)必须考虑无家庭 Wi-Fi 场景
P1
E12周边道具接入抽象层多识别方式平等并行NFC / BLE / IR / 视觉 / 声波 / RF 固定码 抽象到统一peripheral_recognition协议
  • 不把任何一种识别方式神化
  • 由 IP 合作方/创作者按道具特性自由选择
P0
E13周边道具 4 大形态全覆盖无源 / 结构化 / 电子 / 机动每种形态有标准化硬件参考设计·BOM 数据明确
  • 不只做 NFC 卡片
  • 不让任何一种形态成为孤儿
P0
E14周边道具发布节奏月-季-年三档月度新品 NFC 卡 + 季度联名电子道具 + 年度限量加密款·SHEIN 式快反
  • 不让周边变成"一次性附赠品"
P1
E15大型互动装置开放接入游乐场 / 商场场景动画恐龙 / 投影地面 / AR 装置等通过开放 API 接入·不自己制造
  • 不与传统装置厂商竞争
  • 做"主机+周边"协议层的统一调度
P2

FAI 计算与云端协同(5 条)

ID需求衡量标准优先
F1同一 AI 功能多版本tiny/small/medium/cloud平台自动选版本
  • 不在一个版本里硬塞所有硬件
P0
F2关键功能断网时降级本地 fallback·规则引擎完全本地·AI 引擎可本地降级P0
F3规则引擎完全本地运行毫秒级响应·确定性·不依赖云
  • 不把规则判定放云端
P0
F4AI 引擎可跨节点切换200-500ms 切换·填充音掩盖延迟
  • 不追求带状态热迁移
P1
F5沉浸感预算关键时刻不能卡同步精度 ≤50ms·响应延迟 ≤300ms·断流次数 ≤1次/小时P1

G多设备协同与组网(6 条)

ID需求衡量标准优先
G1家庭内自动组网2-6 设备·开机即被发现·无需 APP 配对·任意玩偶可作协调者P0
G2单设备故障不中断活动协调者掉线 200ms 内被接管·状态零丢失·用户基本无感P0
G3关键时刻同步精度 ≤50ms灯/音/震多设备同步精度P0
G4多 AI 角色协同不撞人格多个玩偶各自有人格,遵守 8 条角色协作硬规则P0
G5QoS 4 类分通道传输控制信令 / 媒体流 / 状态同步 / 大文件 四类独立通道P0
G6异地玩偶联机跨家庭云端中转·延迟 <200msP2

HAI 模型与软件栈(15 条)

ID需求衡量标准优先
H16 类 AI 模型独立选型KWS/ASR/LLM/TTS/Vision/Emotion各自有专门管理流水线
  • 不用"一个全能多模态"解决所有
P0
H2国产云 LLM 优先MVP 主力对接 Qwen-Plus / 豆包 / DeepSeek,不依赖 OpenAIP0
H3端侧 LLM 本地兜底RK3588+ 必须能跑 1B+ 模型本地 Qwen3-1.7B 或更大P0
H4儿童语音 ASR 微调用儿童语音数据集 LoRA 微调,WER 提升 5-10%P1
H5TTS 多音色支持每个 IP/Persona 独立声音CosyVoice 克隆主声音 + VITS 边端 fallbackP0
H6视觉模型分级部署YOLO11n(基础)→ Moondream/Qwen-VL(高端)P1
H7推理框架选定边端 llama.cpp + RKNN,云端 vLLMP0
H8Agent 框架自研不依赖 LangChain,参考 CrewAI 哲学自研P0
H9内容安全 Day 1 集成文本/图像/语音三道护栏(阿里绿网/腾讯天御)P0
H10数据飞轮工程化脱敏 → 弱监督 → LoRA → OTA 全流程自动P1
H11模型 OTA 推送基础设施每个产品能独立更新模型P0
H12A/B 测试框架模型迭代用真实流量验证P1
H13LLM 路由策略根据复杂度路由到本地或云、不同档次模型P0
H14LLM 缓存机制高频 prompt 结果缓存,降低成本P1
H15端侧模型量化4-bit (W8A8) 标准·关键场景 BF16P0

I软件系统架构(19 条)

ID需求衡量标准优先
I1端上 OTA + 回滚A/B 双分区,失败自动回滚P0
I2端上数据加密本地存储 AES-256密钥由设备 EFUSE 派生·防止固件被刷P0
I3雾节点自动选举任意 D2+ 玩偶可担任·断开 200ms 内重选P0
I4雾节点本地缓存与降级断网时仍可玩 70% 活动P0
I5家长 APP 跨平台iOS + Android 同等体验·React Native + ExpoP0
I6创作者 Web 工具浏览器内可创作、模拟、发布·Next.jsP1
I7后端微服务架构K8s 部署水平可扩展·阿里云 ACKP0
I8MQTT 设备总线EMQX 集群单集群支持 100 万设备P0
I9设备配对兼容 Matter 1.4.1配对流程符合 Matter 设计·NFC onboarding 兼容P0
I10五类互联协议栈设备↔设备 / 主机↔周边 / 设备↔APP / 设备↔云 / 设备↔蜂窝 五套独立协议栈,五个并列 Connectivity AdapterP0
I11Topic 命名空间设计tenant / family / device 三层·支持多租户P0
I12设备影子机制desired/reported/delta·离线时缓存命令P0
I13实时音频流通道WebSocket + Opus·延迟 <300msP0
I14远程视频陪伴商业 WebRTC SDK 集成(声网/即构)P1
I15多模型路由根据复杂度自动决定本地/云P0
I16隐私脱敏代理雾节点责任出户数据自动脱敏P0
I17监控与告警设备掉线·AI 错误·内容安全实时告警P0
I18A/B 测试框架(家庭维度)可针对家庭/活动维度做实验P1
I19多区域部署国内/海外独立部署·数据不出境P1

J数据·隐私·合规(5 条)

ID需求衡量标准优先
J1儿童数据合规COPPA/GDPR-K原始语音/人脸不上云·家长授权·可导出可删除·平台审计可追溯P0
J2Persona 倾诉模式隐私加固倾诉内容本地处理优先·其他角色静默·永不商业化
  • 不把树洞数据用于推荐/训练
P0
J3UGC 内容审核 4 闸管线语法 / 安全 / 仿真 / 真人 Beta·私人前两闸·公开全过P1
J4数据飞轮支撑模型迭代脱敏后回流·用户/环境/动力学三类分管
  • 不混合三类数据训练
P1
J5三层记忆主动遗忘L1→L2 时丢 90% 细节·L2→L3 时丢 95%·用户可一键忘记P0

K创作生态(5 条)

ID需求衡量标准优先
K1头部 IP 联名活动上线6 个授权 IP 已签·每月新增 IP 内容能力P0
K2PGC 工作室高效产出可视化创作工具·L2 模板可复用·一活动立项到上架 ≤4 周P1
K3UGC 用户零代码创作自然语言 + 道具组合 → AI Author 翻译为 IR·≤5 分钟出可玩版本P1
K4AI 自身可创作活动Author 角色根据用户兴趣自动生成新活动
  • 不让 AI 完全自由生成(要走模板)
P1
K5L1 原语集稳定演进11 个原语·新增走 RFC·向后兼容·UGC 不能直接调 L1P0

L模拟器(10 条)

ID需求衡量标准优先
L1模拟器 = 平台运行时虚拟版本同一活动 IR 在模拟器和真实玩偶上行为一致
  • 不做模拟器专属"特殊版本"逻辑
P0
L2支持纯 LLM 模拟玩家行为"自动跑 100 局"AI 模拟玩家完整玩通P0
L3支持人类用户接入创作者自己当玩家在 web/APP 里玩P0
L4模拟虚拟设备组合模拟"2 精灵 + 1 机器人"等环境P0
L5模拟弱网/断网/单设备故障主动"断网"看活动如何降级P0
L6模拟不同 AI 角色行为同一活动在 Director=温柔 vs Director=严厉表现不同P1
L7输出可玩性指标报告平均时长·完成率·卡死率·单一胜者率·玩家情绪曲线P0
L8录制 + 回放模拟一局后能回放·定位问题环节P1
L9时间加速长线养成"快进 30 天"看长期效果P1
L10模拟器与发布管线集成通过模拟器报告的活动直接进 4 闸校验"闸 3 仿真"P0

V视觉与具身智能(16 条)

ID需求衡量标准优先
V1视觉是产品分级的关键差异化基座层无视觉·情感层选配·机器人必装
  • 不在基座层强加摄像头·BOM 不允许
P0
V2四类视觉硬件分场景部署RGB 单目 / 立体双目 / ToF / 结构光·按产品层级和场景选型P0
V3情感层旗舰款 VLM 本地部署本地 Moondream2 或 Florence-2·D3 档以上·拍照评价、看图说话本地完成P1
V4云端 VLM 优先国产主力 Qwen2.5-VL(阿里)·备选 GPT-4o·豆包视觉
  • 不依赖单一国外服务
P0
V5基础视觉能力本地化YOLO 物体检测 + MediaPipe 姿态 / 手势·完全本地·延迟 <100msP0
V6视觉护栏 5 道关物理快门·输入预过滤·处理本地优先·输出后过滤·家长可观察日志P0
V7摄像头默认关闭家长 APP 主动开启才工作·物理快门可选
  • 不为体验便利牺牲隐私
P0
V8情绪识别本地化FER+ 专用模型·5MB 本地推理·情绪数据不出户P0
V9轮式机器人 SLAM 导航立体双目 + IMU·室内厘米级精度·商场/乐园场景必备P1
V10VLA 用于双足机器人基于 GR00T N1 / OpenVLA / π0 微调·不自研基础模型·跟进开源P2
V11视觉协同涌现多设备视觉融合多视角融合·视觉接力·视觉时序协作·跨设备主体识别
  • 不让单玩偶视觉是孤岛
P1
V12视觉 + 雾节点 LLM 路径基座层精灵拍照→雾节点 VLM 处理→回复传回·路径透明P1
V13周边道具自身视觉 · 三种类型支持OID 光学识别笔(¥50-200)·CMOS 扫描翻译笔(¥349-999)·扩展摄像头模组(¥30-300)
  • 不只让主机有视觉·周边也能"看"
P0
V14兼容 OID 标准 · 教育市场关键支持松翰 SN9P 系列 / OID2 / OID3 协议·兼容已有点读教材生态
  • 不另起炉灶发明新光学码
P1
V15扩展摄像头 · 模块化视觉主机 USB-C / BLE 协议接收外接摄像头·摄像头单独售卖¥99-299·跨玩偶可拆卸
  • 这是 AIGG 独有创新:视觉作为"卡带"售卖
P1
V16视觉数据来源标注 · 隐私边界每张图片来源(主机/词典笔/扩展摄像头)独立标注·不同来源走不同隐私策略
  • 儿童胸针型摄像头特殊保护
P0
§ 08

未决策事项 Open Decisions

架构设计已经收敛,但有 18 个产品/工程判断需要拍板,否则下一步无法启动。这些不是技术问题,是需要结合市场、团队、资金做的战略选择

MVP 范围 · 5 个

D-01
MVP 硬件起点
第一只产品上市时硬件覆盖范围。决定团队 6 个月做什么。
A. 只做基座层精灵(¥199-399)
B. 基座层 + 情感层双层(推荐)
C. 以已出货的轮式机器人为主体
D-02
MVP 玩法/角色覆盖
第一批活动的产品形态。
A. 主推 3-5 类强规则游戏
B. 主推角色陪伴 + 少量轻游戏
C. 双引擎协作验证 - 2 类规则 + 2 类陪伴 + 4 种核心角色(推荐)
D-03
UGC 在 MVP 的地位
UGC 是 BP "物理 Roblox" 叙事核心,但工程量大。
A. MVP 只做 PGC,UGC 半年后开放
B. MVP 内置 UGC 工具但只支持私人分享(推荐)
C. MVP Day 1 就开放 UGC 公开发布
D-04
情感层档位
D2(云端为主)vs D3(本地 LLM)的取舍。
A. 全 D2(ESP32-S3)
B. 全 D3 入门款(RK3576)
C. 双线产品:入门 D2 ¥399 + 旗舰 D3 ¥1999(推荐)
D-05
摄像头是否基座层标配
摄像头让"识人/识物/识手势"成为可能,但基座层 BOM 吃不消 +$5-8。
A. 基座层不做摄像头,把视觉作为情感层差异化(推荐)
B. 基座层选配摄像头版本(高端款)

角色与玩法设计 · 3 个

D-06
7 角色分类是否需要用户实证测试
学术 60 年教训:分类不经实证都会被推翻(Warpefelt 方法)。
A. 跳过实证,直接进开发
B. MVP 上线前做 100 人用户测试,辨识度 ≥70% 才冻结(推荐)
D-07
儿童语音 ASR 是否自训练
通用 Whisper 在儿童语音上 WER 较高(15%+),微调可降至 ≤10%。
A. 直接用通用 Whisper-Turbo + 云端兜底
B. MVP 用 A,第二个版本 P1 投入 3-6 个月做儿童微调(推荐)
D-08
TTS 是否做角色音色克隆
每个 IP/Persona 独立音色 vs 5-6 种通用声音。
A. CosyVoice 克隆 - 体验差异大(推荐)
B. 通用角色声音 - 简单稳定

软件栈与基础设施 · 6 个

D-09
后端云厂商
影响 IoT 接入、LLM 服务、CDN 等多个层面。
A. 阿里云全栈(推荐:成熟、IoT 平台完善、Qwen LLM 一站式)
B. 腾讯云全栈
C. 火山引擎全栈
D. 自建 + 多云
D-10
海外市场策略
BP 中提到海外渠道(Walmart/Best Buy 等),何时上海外。
A. MVP 只做国内市场(推荐)
B. MVP 同时上海外(AWS)
D-11
雾节点形态
雾节点是 GDPR 合规屏障,必须有,但形态可选。
A. 主机玩偶兼任(不增加 BOM 成本)(推荐)
B. 单独"家庭网关"产品
C. 家长手机 APP 兼任
D-12
APP 跨平台框架
影响团队招聘、开发速度、长期维护。
A. React Native(推荐:团队招聘最容易)
B. Flutter
C. 分别原生开发
D-13
MQTT broker 自建 vs 云厂商
EMQX 自建灵活但运维重,云厂商 IoT 平台快但贵。
A. 全自建 EMQX
B. 全用阿里云 IoT 平台
C. 混合:阿里云 IoT 入站 + 自建 EMQX 业务总线(推荐)
D-14
创作者工具部署
创作者工具是 PGC/UGC 的入口。
A. Web 工具(浏览器内)(推荐)
B. Mac/Windows 桌面 APP(Tauri)
C. iPad APP

战略与组织 · 4 个

D-15
第一个 IP 联名 MVP 选哪个
5+ 头部 IP 中先做哪个决定首发体验。
BP 中 5 个 IP 选一个:SAMG 爱心萌可、FUFUSOUL AIFUFU、YOUNG TOYS 魔法萌朵、Steiff、HiTOY Nommi
D-16
陪伴 vs 玩具 品牌定位
BP 定位是"娱乐",但陪伴 LTV 更高。
A. 主打"AI 玩具"品牌(Hybrid Casual / Sports / Chance & Collect 主力)
B. 主打"AI 伙伴"品牌(Companion 主力)
C. 双品牌:主品牌做娱乐,子品牌做陪伴(推荐)
D-17
订阅商业模式
BP 提"卡带经济"为主,但陪伴类天然适合订阅。
A. 只做卡带经济(一次性付费 + 道具复购)
B. 卡带 + 订阅双轨(推荐:陪伴类必须订阅)
C. 全订阅模式
D-18
团队规模上限
天使+轮 ¥3000 万对应的合理团队规模。
A. 30-40 人(保守)
B. 50-60 人(推荐:覆盖端/雾/APP/后端/AI/IP/供应链)
C. 80+ 人(激进)
§ 09

学术与产业依据 References

AIGG 的设计不是凭空发明,而是站在游戏研究、IoT、嵌入式、AI 推理多个领域的成熟工作之上。下面按主题分类列出关键引用。

9.1AI 角色分类(5 篇)

9.2游戏分类学(6 篇)

9.3产业分类(5 篇)

9.4硬件与嵌入式(7 篇)

9.5AI 模型选型(8 篇)

9.6软件系统(7 篇)