AIGG(AI-Generated Game)平台的工程需求文档。本文档明确了平台的核心抽象、玩法覆盖、AI 角色、硬件层、软件栈、互联协议与商业边界。
每一条需求都包含目标、衡量标准、与不要做什么——三件齐才算需求,少任一件均为愿景。
本文档与《AIGG 平台产品愿景》互为印证——愿景文档讲"为什么做、做什么、为谁做",本文档讲"怎么做、做到什么标准"。
两份文档配合使用——愿景文档对齐方向,本文档对齐细节。
这一章是所有后续需求的真正起点——架构、硬件、软件、协议都在为这里描述的体验服务。AIGG 的本质命题是:用 AI 与互联,把原本孤立、不能动、各自为政的玩具/道具/玩偶/装置组织成一个有机的整体,让物理世界变得足够好玩,足以与屏幕争夺孩子(和成人)的时间。
过去十五年,娱乐产业的重心确实在向屏幕迁移——这不是因为屏幕"夺取"了什么,而是因为屏幕同时获得了表现力、便携性、网络化、可迭代四个根本能力。
全球游戏市场 2025 年规模 1970 亿美元(移动 55% / PC 22% / 主机 23%),中国移动游戏 2570 亿元——这是真实的产业繁荣,AIGG 不否认、不对抗、也不试图夺取。
但与此同时,物理玩具没有跟上时代——它既不够智能(玩三天就腻),也是孤立的(玩偶不能和卡片对话、奶奶家的玩偶不认识你家的玩偶)。
AIGG 的核心命题是让物理玩具补上 AI 时代应得的能力升级,与屏幕娱乐形成协奏而非替代关系。
屏幕擅长的——千变万化的视觉表现力、便携触手可达、网络化社交、持续迭代运营。这是数字娱乐独有的强项。
物理擅长的——具身认知(身体参与是一种学习)、自由游戏(执行功能根基)、真实物件依恋(80% 儿童形成、66% 保留 20+ 年)、共同在场(面对面无可替代)、多感官记忆、物理仪式感、跨年龄/能力/网络/语言的普适性。这些价值独立于 AIGG 而存在,跨越人生 80 年(从婴儿手中拨浪鼓到老人怀中 PARO 海豹),跨越 175 年玩具产业史,从未消失。
AIGG 拥抱屏幕也拥抱物理——家长 APP / 模拟器 / 玩偶 LCD 表情屏 / 远程视频陪伴 / AR 头盔 等都是 AIGG 体验栈的一部分。AIGG 的立场是:屏幕是表现力之一,不是表现力的全部。
要让物理玩具在 AI 时代获得能力升级,需要智能 × 互联的乘积效应——智能拉升单点可玩性(NUI 自然交互革命 + 游戏性表现力七维度跃迁),互联拉升整体涌现(玩具越多体验越好的正向网络效应)。两者必须同时具备:没有智能,互联只是连接傻物件;没有互联,智能只是孤独的聪明玩偶。
物理世界游戏的四个独有价值——这些价值独立于 AIGG 而存在,是 AIGG 之所以值得做的前提。 它们贯穿人生 80 年,跨越 175 年的玩具产业史。每一条都不是"对屏幕的反对",而是"物理形态本身赋予的不可替代价值":
AIGG 的产品对象不只是儿童。物理游戏的魅力在不同人群中以不同方式显现:
| 人群 | 核心价值 | 关键学术支撑 | 对应产品形态 |
|---|---|---|---|
| 儿童 (0-12 岁) |
大脑发育的根基——执行功能、亲社会行为、语言习得、自我调节 | AAP《Power of Play》2018/2025、WHO 屏幕指南、具身认知 MDPI 2021 | 主战场·基座层精灵 + 情感层旗舰 |
| 青少年 (13-22 岁) |
社交与身份建构——TTRPG 友谊、潮玩收藏、心理重置 | StartPlaying 2025:78% Gen Z 通过 RPG 结交挚友、90% 用 RPG 心理重置 | 桌游 / 剧本杀 / 实体卡牌 / 潮玩 |
| 成人 (23-55 岁) |
数字疲劳的减压锚点——情感陪伴、压力释放、家庭游戏夜 | 桌游 160 亿美元 / CAGR 10%、48% 因家庭游戏夜购买、PMC 2024 生理研究 | 家庭桌游 + 收藏品 + 减压陪伴玩偶 |
| 老人 (55+ 岁) |
认知健康与孤独干预——情绪改善、社交激发、记忆刺激 | PARO RCT 多项临床研究、Banks 2008(AIBO ≈ 真狗效果)、AMSTEL 孤独研究 | 陪伴机器人 / 认知干预 / 跨代桌游 |
这个分析对 AIGG 平台设计有三个直接含义:
AIGG 不是凭空发明物理游戏的设计哲学,而是站在 40 年产业积累之上做集成与突破。下面是我们调研后认为最值得继承、也最值得引以为戒的几家公司的核心思考——既包括它们的洞察,也包括它们的失败教训。
任天堂 Game & Watch 与 Game Boy 的发明者,提出影响整个产业 40 年的设计哲学:"用枯萎的技术做横向思考"——不追求最前沿的硬件,用已经成熟、便宜、可靠的技术做不寻常的组合。这条路径让任天堂在硬件竞赛中不与 Sony / 微软正面竞争,开辟"蓝海"。
AIGG 不应试图做"算力最强的玩偶"——情感层用 ESP32-S3 而不是 Jetson Orin,不是技术降级,是设计哲学的胜利。把 NFC(30 年老技术)和大模型(最新技术)组合起来就是横山悟井哲学的当代版本。
2005 年 GDC 演讲:"心里是一个游戏玩家"。Wii 的设计目标是把不玩游戏的人变成游戏玩家——爷爷奶奶、家庭主妇、所有被传统游戏机吓退的人。Wii 遥控器叫"remote"不叫"controller"——Iwata 坚持这个细节,因为电视遥控器是所有家庭成员都用过的器物。
AIGG 玩偶的目标用户不是"游戏发烧友的孩子",是所有家庭成员——5 岁孩子、8 岁孩子、爸爸妈妈、爷爷奶奶都能 5 分钟上手。这就是为什么 AI 主机要做成"玩偶"而不是"游戏机"——玩偶是所有家庭成员都熟悉的器物。Wii Sports 卖了 8000 万套不是因为它"好玩",是因为它"任何人都能上手"。
Wii 的设计哲学:游戏机不是"另一台电器",是"把家人聚在客厅的工具"。所以 Wii 的物理外形是"3 张 DVD 盒大小"——可以塞在电视旁边任何角落,不打扰客厅美感。
AI 主机玩偶的物理设计要服从于"它要待在客厅而不被嫌弃"——比如形态足够可爱让妈妈愿意放在沙发上、声音不能太机械化、灯光要柔和。这是审美问题但和工程同等重要。BP 的"毛绒+芯片"形态选择正是这个哲学的体现。
从 1998 年 Mindstorms 开始,LEGO 探索物理与数字结合的游戏方式 27 年。2020 年 LEGO Super Mario 与任天堂联合推出,2026 年发布 Smart Brick——传感器嵌入积木块,"主要互动仍在物理搭建,APP 只是辅助"。LEGO CEO 一句话:"家长越来越担心屏幕时间,所以我们的 Smart Brick 设计原则是物理操作为主、APP 为辅"。
AIGG 的核心也必须是"物理优先 · 数字辅助"——APP 不能成为玩耍的中心。如果用户大部分时间在看屏幕,那 AIGG 就败给了手游。BP 中"反斗城/孩子王"的渠道选择正是这个判断——物理玩具的销售场景。LEGO 用 27 年告诉我们:物理为主可以做大,做成第二大玩具公司。
迪士尼 1955 年开始的"Imagineer"传统——所有细节都为环境叙事 (environmental storytelling) 服务。1988 年发明的 4 层沉浸细节理论:远景视觉 → 中景空间 → 近景质感 → 微观细节。MagicBand(2013)和 MagicBand+(2022)把这个哲学物联网化——一只 RFID + BLE 手环让整个园区成为响应你的活体:进园自动识别、夜晚烟花表演时手环按节奏发光、Star Wars 区域寻宝任务由手环引导。
MagicBand 的本质不是"硬件产品",而是"让物理空间成为响应你的活体"的协议网络——所有园区设备都听 MagicBand 的呼吸。这正是 AIGG 在家庭场景要做的事:主机玩偶 + NFC 卡 + 小车 + 灯具 = 家变成响应你的活体。这是 Disney 用 80 亿美元和 30 年建造的认知,AIGG 应该完全继承。
Anki 的 Cozmo(2016, $180)是Pixar 动画师 Carlos Baena 加入设计的产物。核心哲学:"不要追求完美,要追求 personality"——刻意设计动作的"自然不完美"让玩具显得活着。Cozmo 在 2017 年成为亚马逊销量第一的玩具。
Anki 在 2019 年破产——融资轮意外失败。$180 对玩具仍然太贵;技术再好但变不成可持续的商业模式。Cozmo 的失败告诉 AIGG:技术领先 + 情感设计极致都不够,必须有可持续的商业引擎——这也是为什么 BP 的"卡带经济 + 订阅"组合至关重要。
iRobot 前 CTO Paolo Pirjanian 创立的 Embodied($799 Moxie)专做儿童社交情感发展。哲学:"不是游戏机,是 animate companion(活的伙伴)"。每周一个生活技能主题(善良、友谊、共情、尊重),通过日常互动培养。Moxie 用 Yves Béhar 设计、Pixar 动画思路。
Embodied 在 2024 年底突然停运——孩子们对 Moxie 形成情感依赖后产品关停,造成大量家长心碎反馈。这是 AI 玩具行业的标志性悲剧事件。教训:用户与玩偶的情感连接是产品最强的护城河,但也是最重的责任——AIGG 的服务连续性必须设计为"即使公司倒闭,玩偶人格也能在本地继续运作"。这要求 Persona 数据可导出、本地大模型兜底、紧急关停 plan。
2011 年 Activision 的 Skylanders 开创"toys-to-life"模式——NFC 玩偶放上底座激活游戏角色,仅 Skylanders 4 年内卖出 30 亿美元。Disney Infinity(2013-2016)跨 IP 整合(漫威、星战、皮克斯)。任天堂 Amiibo(2014-至今)—— 不绑死单一游戏,跨多游戏使用。LEGO Dimensions(2015-2017)—— 乐高积木 + NFC 底座 + 屏幕游戏。
"主机+周边玩偶"这个商业模型有 15 年成熟经验,不是 AIGG 发明。AIGG 要继承这套模式,但有 4 个突破:① 主机不是屏幕游戏机,是物理玩偶 ② 周边不局限于"角色雕像",而是各种道具 ③ 不依赖 IP 授权也能玩(自有 SKU + 第三方)④ 周边和玩偶组成有机整体,不只是"unlock 关卡"。Amiibo 模式(不绑死单游戏)尤其值得学习——AIGG 的卡带可以跨多个活动使用。
2024-2025 年中国 AI 玩具创业爆发——BubblePal(¥399)半年销量 2.5-5 万台,单平台销售额超 ¥2000 万。FoloToy 2025 一季度销量已接近 2024 全年。这些早期创业者验证了"低价 + 大模型 + 情感陪伴"路径在中国市场可行。
BubblePal 等已经验证了 ¥399 价位的 AI 玩偶有真实需求。但它们的天花板是单一玩偶的对话——没有解决"多玩具协同"的核心问题。AIGG 的差异化不是做又一只 BubblePal,而是做能让 BubblePal 这类玩偶都能加入的"主机 + 协议网络"——做玩具的 iOS而不是又一只玩具。
| 公司 / 人 | 核心思考 | AIGG 继承 |
|---|---|---|
| 横山悟井 · Nintendo | 枯萎技术的横向思考 | NFC 老技术 × 大模型新技术的组合 |
| 岩田聪 · Nintendo | 扩大游戏人口 | 主机做成玩偶让所有家庭成员上手 |
| 宫本茂 · Nintendo | 客厅中心的连接器 | 毛绒外形 + 柔和声光 = 客厅审美 |
| LEGO | Fluid Play · 物理优先 | APP 为辅·物理操作是中心 |
| Disney Imagineering | 环境叙事 + MagicBand 协议网络 | 整个家变成响应你的活体 |
| Anki / Cozmo | Pixar 情感引擎 · 但商业模式不可持续 | 情感设计极致化 + 卡带商业引擎 |
| Embodied / Moxie | animate companion · 但情感依赖责任重 | 本地化兜底 + 数据可导出·关停 plan |
| Skylanders / Amiibo | toys-to-life 跨游戏复用 | 卡带跨多活动 · 不锁定单 IP |
这 8 家公司各自做对了一件事,但没有任何一家把所有事都做对:
AIGG 的机会是把这 8 件事在一个产品矩阵里同时做对——这是 AI 玩具行业的"集大成时刻"。这也是为什么 BP 中"主机+卡带+雾节点+多设备协同"的整体设计是真正的差异化,不是单点功能。
下图说明 AIGG 究竟在解决什么问题——传统玩具既笨又孤立,每只是预设几句话的死东西,相互之间还互不通信;AIGG 通过大模型让每只玩偶变聪明 + 互联协议让所有物件形成有机协作网络,并将体验延伸到家庭之外。智能拉升单点上限,互联拉升整体涌现,两者乘积才是真正的护城河:
AI 给物理世界带来的第一个具体革命是自然交互革命(NUI · Natural User Interface)。 把它放进人机交互演进史的位置上看:打孔卡 → 命令行 → 图形界面(鼠标键盘)→ 触控屏 → 自然交互—— 每一代都朝着"更直觉、更接近人类自然行为"的方向。AI 让我们正式进入第五代范式。
NUI 的核心是多模态自然交互——同时使用语音、视觉、触觉、手势、姿态、表情、空间位置等多种通道, 与人类日常和真实世界互动的方式一致。微软、Google、Apple、Meta 都在押注这个方向;ScienceDirect 等学术综述把它称为 "从 WIMP 范式到 NUI 范式的根本性架构变迁"。
传统玩具的交互是"按按钮"或"扳开关",电子玩具是"看屏幕点屏幕"。AIGG 让玩具可以同时听你说话、看你的脸、感受你的触摸、识别你的手势、注意你的位置,然后用语音、表情、动作、灯光多通道自然回应。 这是物理玩具历史上从未发生过的交互范式跃迁——从"操作工具"变成"自然伙伴"。
NUI 的跨人群普适性尤其重要:
NUI 的真正威力不是"支持多种交互方式",是多通道协同理解—— 用户说"看这个"+ 同时手指着 + 同时看着某物——AI 把语音 + 手势 + 视线方向融合成单一意图。 这是单通道 AI 永远做不到的,只有真正的多模态系统才能实现。
"AI 让玩具更智能"是含糊的描述。具体地说,AI 在游戏性的多个维度同时提升了物理玩具的表现力—— 这种全维度提升以前只发生过一次,就是从单机游戏到联机游戏的跃迁。
下面这 7 个维度都是可被工程实现、可被量化衡量的具体能力,不是空泛的修辞:
| 维度 | 从(传统玩具) | 到(AIGG) | 产业证据 |
|---|---|---|---|
| 1. 动态生成内容 | 固定剧情对话 | 每次互动基于上下文重新生成 | GDC 2025: 1/3 开发者使用生成 AI;Steam 20%+ 游戏使用生成 AI 资产,年增 700% |
| 2. 实时反馈丰富性 | 预录音效("刺激-反应") | 语义级实时反馈("理解-回应") | Justice Online Mobile NPC 实时对话;NVIDIA ACE PUBG Ally |
| 3. 自适应难度节奏 | 难度固定 | 实时分析玩家技能/情绪/参与度,动态调整 | Candy Crush AI 实时调整千万关卡;No Man's Sky 自适应世界 |
| 4. 声光电多通道协同 | 灯光/声音/动作各自独立 | 多输出通道协同表达情感和情境 | Anki Cozmo Pixar 动画师 emotion engine |
| 5. 连续人格 | 预设台词集合 | 持续记忆 + 偏好学习 + 性格演化 | Monolith Nemesis System;NetEase 长期记忆 NPC |
| 6. 灵活性与张力 | 剧本固定 | 同框架每次产生不同紧张感、转折、高潮 | D&D(78% Gen Z 通过 RPG 结交挚友的灵活性根源) |
| 7. 跨设备协奏 | 每个玩具独立 | 多玩偶/卡片/灯光/音响整体协奏一场表演 | Disney MagicBand+ 全园区协奏(30 年 80 亿美元验证) |
这 7 个维度合起来构成的游戏性表现力跃迁,让物理玩具从"会发声的塑料" 进化为"有性格、会即兴、能与你共同创造体验的伙伴"。每个维度都对应平台需要做的具体工程能力——见后续 §02 双引擎、§03 AI 角色、§05 AI 模型等章节的展开。
AIGG 不是反屏幕——屏幕娱乐的成功是真实且合理的。屏幕带来的千变万化的视觉表现力是物理世界永远无法等价复刻的——飞龙、星空、变形怪兽、即时切换的场景。 AIGG 不仅不否认这种价值,而且主动拥抱屏幕作为体验栈的一部分。
具体而言,AIGG 的体验栈中以下部分是屏幕:
AIGG 的核心立场:屏幕是表现力之一,不是表现力的全部。 平台架构必须既支持屏幕作为输出通道,又确保物理形态承担"主战场"——不让 AIGG 退化为"又一个屏幕 APP"。
2025 年全球玩具行业已经把"phygital play"(物理-数字融合游戏)作为产业共识—— AR 玩具市场规模 2025 年 37 亿美元,年增 14.5%。LEGO Super Mario、PlayShifu Tacto、HOLOBRITE Pixie Lantern 都是"物理 + 屏幕协同"的成功案例。 LEGO 在 2026 年发布的 Smart Brick 明确说:"主要互动仍在物理搭建,屏幕只是辅助"。 AIGG 的定位是这个共识的最完整执行者——把"物理 × 屏幕 × AI × 互联"四者编织成一张网。
AIGG 必须在四类典型场景里都跑通——每个场景对硬件、互联、商业模式都有不同要求:
家庭场景是 AIGG 的主战场——80% 的用户时长会发生在这里。下面是一个典型家庭的设备拓扑:
| 角色 | 典型设备 | 数量 | 职责 |
|---|---|---|---|
| 核心 AI 主机 | 情感层玩偶(¥899-1999)或场景层小机器人 | 1 台/家 | 家庭 AI 大脑、雾节点、Persona 主角色 |
| 个人 AI 玩偶 | 基座层精灵(¥199-399) | 每个家庭成员 1-3 个 | 个人陪伴、IP 联名收藏、便携 |
| NFC 道具卡 | IP 联名卡牌、剧情卡、场景卡、角色卡 | 10-100 张/家 | 触发活动、解锁内容、角色扮演 |
| 有源道具 | BLE 机动小车、声光灯、抢答器、小机器 | 3-10 件/家 | 主动参与游戏的"演员" |
| 游戏场地件 | 桌游棋盘、地图、场景套装、立体玩具屋 | 2-5 套/家 | 构造游戏空间 |
| 家长设备 | 手机 APP(家长端)+ 平板(孩子端可选) | 1-2 台 | 监管、配置、远程参与、报告 |
| 家庭智能设备 | 智能灯、音响、电视(可选联动) | 已有/可选 | 沉浸感扩展(关灯进入故事模式) |
典型一晚的家庭使用画像(基于 BP "家庭游戏世界"愿景):
晚上 7:00 · 餐桌 · 妈妈打开核心 AI 主机,玩偶从充电座苏醒。爸爸把白天买的"魔法森林"NFC 套装卡放到桌上,玩偶识别后说:"今晚我们去魔法森林吗?"5 岁的孩子尖叫着把"小狐狸"角色卡放过去,玩偶变身小狐狸的声线。
7:15 · 客厅 · 家庭桌游开始。AI 玩偶担任 Director(裁判 + 主持人),桌上的 BLE 抢答器同步亮灯。爸爸的玩偶今天扮演 Player(凑数玩家),妈妈的玩偶扮演 Narrator(讲故事)。客厅灯光配合剧情自动调节。
8:30 · 儿童房 · 桌游结束,孩子带着自己的小玩偶进卧室。玩偶从"裁判模式"切换到"陪伴模式"。孩子讲今天幼儿园发生的事,玩偶记下来——这进入 L2 事件记忆。
9:00 · 床头 · 玩偶切换到"睡前故事"——根据孩子今天的情绪即兴生成故事,主角是孩子收藏的卡片角色。家长 APP 收到一份温柔的"今日成长简报"。
第二天清晨 · 玩偶离线时云端继续生成"它做了个梦"的内容。孩子起床,玩偶说"我刚才梦到你养的小狐狸学会跳舞了!"——这是离线推进让陪伴变魔法的瞬间。
游乐场场景是 BP 中"城市游戏世界"的对应——把 AIGG 能力延伸到家庭之外的商业娱乐空间。这是市场已经验证过的赛道:北京环球影城"中国神话"AR 区域吸引外籍游客占比 30%;TeamLab 无界美术馆复购率 35%、客单价 500+;上海迪士尼"AI 角色互动"项目让游客平均停留延长至 9 小时。
| 子场景 | 设备形态 | 关键体验 | 商业模式 |
|---|---|---|---|
| 主题乐园 | 大型双足人形机器人作为 IP 形象 / 全场景固定 AI 角色 / 沉浸式互动装置 | 个人玩偶进入园区与场景中的 AI 联动;卡片在不同园区有不同效果;离场时获得专属"今日冒险"故事 | B2B 设备销售/租赁 + 衍生品分成 |
| 室内儿童乐园 | 大量轮式中型机器人 + 桌面 AI 主机阵列 + 互动地面投影 | 儿童入场获得手环/卡片,参与多个活动获得勋章;和家里玩偶进度同步 | 场地分账 + 卡牌销售 |
| IP 主题快闪店 | 1-2 台旗舰机器人 + 大屏 + IP 联名互动桌 | 到店激活专属内容;现场抓拍合影;扫码一键购买回家版 | IP 方付费 + 转化销售 |
| 亲子餐厅 / 咖啡馆 | 桌面型小型 AI 主机 + 桌游道具套装 | 等待上菜的 15 分钟玩一局桌游;AI 当裁判和故事讲述者 | 设备租赁 + 桌游分账 |
| 剧本杀 / 密室 | 多个 AI 玩偶作为 NPC + 场景中的物理道具识别 | AI 玩偶作为 Narrator 推进剧情,每次体验不同——AI 让剧情可重玩 | 场地合作 + 剧本订阅 |
AIGG 的真正护城河之一:家庭设备和游乐场设备共享同一套 Persona 身份系统。"小宝"在你家是床头陪伴,去乐园后变身为乐园里的"向导"和你一起探险,回家后讲述"我们今天的冒险"。这是迪士尼/环球影城都做不到的——它们的 IP 没有跟着你回家。AIGG 的玩偶把家庭和商业场景之间的鸿沟填平。
SC-B 户外场景——奶奶家、车上、旅游路上、餐厅。这是被市面上 AI 玩具产品普遍忽视但实际很重要的场景:
SC-D 商业空间触点——商超、玩具店、博物馆、学校、养老社区。这是新用户转化的核心漏斗:
把"既笨又孤立的传统玩具"变成"有机协作的智能整体"的具体技术实现表现为以下 6 种"协同涌现"——这些是单一玩偶/单一道具做不到的。协同的前提是每个节点足够智能——只有 AI 玩偶能听懂自然语言、理解上下文、即兴生成剧情,"协同"才有意义;如果每个节点都只会预设语句,再多互联也只是"机械连接"。
| 协同方式 | 体验描述 | 技术依赖 |
|---|---|---|
| 角色协同 | 桌上 4 个玩偶各演一个角色——AI 自动分配 Director / Player / Narrator / Helper,对话不撞戏不冲突 | 多 Agent 协同框架 + 角色协作硬规则 |
| 道具协同 | 把"魔法卡"和"龙卡"同时放上桌,AI 玩偶识别组合 → 触发"召唤龙"剧情 | 多识别方式融合(NFC + BLE + 视觉) |
| 空间协同 | 玩偶移动到桌子另一端 / 客厅 vs 卧室 / 屋内 vs 屋外——AI 根据位置自动切换剧情 | BLE Mesh 信号强度定位 + 室内外感知 |
| 时序协同 | 主持人玩偶喊"3、2、1"——所有玩偶/灯光/扬声器同时反应(同步精度 ≤50ms) | 家庭时钟同步 + 提前调度 |
| 跨家庭协同 | 朋友家的玩偶来做客 → 自动加入家庭网络 → 临时组队游戏;走后数据各归各 | 身份标识 + 临时家庭加入协议 |
| 跨场景协同 | 家里的小宝跟你去乐园——在乐园成为向导,回家后讲述冒险 | Persona 跨场景身份延续 + 离线推进 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| ⊙1 | 物理世界要足够好玩提供屏幕游戏不可替代的体验 | 家庭日均使用时长 ≥30 分钟
| P0 |
| ⊙2 | 智能与互联的乘积效应每只玩偶都聪明 + 设备形成有机整体 | 单玩偶可玩性 × 设备数量协同
| P0 |
| ⊙3 | SC-A 家庭场景为主战场支持 2-6 人多设备协同 | 客厅 / 卧室 / 餐桌 / 床头 全场景跑通
| P0 |
| ⊙4 | SC-B 户外场景无家庭 Wi-Fi 也能用 | 蜂窝模块(LTE-M / Cat-1bis / RedCap)+ 离线降级 | P1 |
| ⊙5 | SC-C 游乐场场景大型机器人作为场景演员 | 轮式 / 双足机器人作为 IP 大使·与个人玩偶联动 | P1 |
| ⊙6 | SC-D 商业空间触点转化新用户的漏斗 | 5 分钟体验·一键关注/订阅/购买回家版 | P1 |
| ⊙7 | 家庭与乐园 Persona 联动 | "小宝"跟你去乐园·变向导·回家讲述冒险
| P1 |
| ⊙8 | 6 种协同涌现角色 / 道具 / 空间 / 时序 / 跨家庭 / 跨场景 | 每种协同至少有 2 个产品级落地场景 | P0 |
| ⊙9 | 朋友来访临时组网开机即被发现 | 访客玩偶 30 秒内加入·走后数据各归各 | P1 |
| ⊙10 | 智能家居联动(可选)客厅灯/音响/电视 | 支持 Matter 1.4+ 协议·非必须但可加分 | P2 |
| ⊙11 | "AI 不替代人际"原则Persona 鼓励家庭成员一起玩 | 活动设计审查·禁止单向沉迷设计
| P0 |
| ⊙12 | 全人群覆盖儿童 / 青少年 / 成人 / 老人 | 产品矩阵覆盖至少 3 个人群·活动 IR 支持年龄分层适配
| P0 |
| ⊙13 | 拥抱屏幕的设计立场屏幕是体验栈一部分 | 家长 APP / 创作者 Web / 玩偶 LCD / 远程视频 / AR 眼镜 都被支持
| P0 |
| ⊙14 | NUI 自然交互范式多模态自然交互作为核心抽象 | 语音/视觉/触觉/手势/姿态/表情多通道协同·多模态融合理解意图
| P0 |
| ⊙15 | 游戏性表现力七维度跃迁每个维度可衡量 | 动态生成内容·实时反馈丰富性·自适应难度·声光电协同·连续人格·灵活张力·跨设备协奏
| P0 |
AIGG 平台不是一个游戏引擎,也不是一个聊天 AI,而是"角色在玩活动"的统一运行时。所有产品形态——派对游戏、长线陪伴、运动健身、收集养成、UGC 创作——都是这个抽象在不同维度上的取值。
替代"游戏 vs 陪伴"二分法的核心抽象。一切玩法都是角色在玩活动。没有"陪伴运行时"和"游戏运行时"的二分——陪伴是"AI 灵活性占主导"的活动类型,游戏是"规则确定性占主导"的活动类型。
Persona 是身份层,Player / Actor / Referee 是位置层。"小宝"(Persona)今天进入桌游临时占据 Director 位,明天进入合作解谜临时占 Helper 位,不在任何活动里时仍然是"小宝"本身。身份和"在当前活动里的位置"是两件事。
每个活动都是规则引擎与 AI 引擎按比例混合的结果,活动 IR 必须显式声明两者的比例和边界。规则引擎管确定性可玩性(不卡死、不失衡、判决公正),AI 引擎管灵活性体验(不无聊、有惊喜、有共鸣)。
| 维度 | 规则引擎 | AI 引擎 |
|---|---|---|
| 角色 | 维护状态、判定胜负、执行强约束 | 演绎角色、生成对话、营造氛围 |
| 响应延迟 | 毫秒级(确定性) | 数百毫秒~秒级(不确定) |
| 失败模式 | 死锁、规则漏洞 | 幻觉、跑题、不安全 |
| 部署位置 | 必须本地、跨节点完全本地 | 主要雾/云、部分小模型边端 |
| 类比 | Unity GameObject + Physics | LLM Agent + 长程记忆 |
| 桌游配比 | 90% | 10% |
| 闲聊配比 | 5% | 95% |
| 解谜配比 | 50% | 50% |
统一的活动描述语言,分三层:
游戏开发者必须在 L2 IR 中显式声明用哪种同步范式——平台不自动选择,因为它影响游戏设计本身。
| 范式 | 典型用途 | 技术栈 | 故障策略 |
|---|---|---|---|
| Authoritative Server | 回合制、卡牌、解谜、PvP、收集 | gRPC + 状态快照 + 事件日志(类 Hearthstone) | 选举新 Authority + 从最近快照恢复 |
| Lockstep(锁步) | 实时反应、抢答、节奏、竞速 | 帧锁定 + 输入广播 + 确定性回放(类王者荣耀) | 全场降帧或踢出该节点 |
| Eventual Consistency | 养成、收集、异步社交、离线场景 | CRDT(Yjs / Automerge) | 本地优先合并,最终一致 |
Persona 角色的记忆按时间尺度分三层,每层有独立的存储位置、生命周期、隐私规则。
不做"100ms 实时全局重规划"——那不可能在 MCU 上跑。正确做法是编译期穷举 + 运行时查表,类比数据库 query plan cache。
AIGG 必须能描述市面所有主流玩法——从狼人杀到健身环、从盲盒抽卡到情绪日记。我们采纳学术(Caillois / Aarseth / MDA)+ 产业(GameRefinery 三层分类)的混合方案,得出 6 Class × 25 Genre × 多维 Tags 的分类体系。
| Class | 核心驱动 | 典型场景 | AI 玩具优势 | 商业模式 |
|---|---|---|---|---|
| Casual 休闲 |
Caillois Agon/Mimicry | 益智、消除、问答、文字 | 物理共玩、全家围坐 | IAA + 轻 IAP |
| Hybrid Casual 混合休闲 ⭐ |
Caillois 多维混合 | 卡牌对战、合成、桌游派对 | NFC 卡带 + 长线收集 | IAA + IAP 主力 |
| Mid-core 中度核心 |
Caillois Agon 强 | RPG、策略、沙盒、角色扮演 | 多玩偶 NPC、物理空间策略 | IAP 主导 |
| Companion 陪伴 ⭐ |
Caillois Mimicry 主 | 情感陪伴、养成、日记、疗愈 | 物理陪伴感、长程记忆 | 订阅 + 内容包 |
| Sports & Active 体感运动 ⭐ |
Caillois Ilinx + Agon | 健身、舞蹈、平衡、节奏、驾驶 | 传感器 + 执行器硬件契合 | IAP + 设备配件 |
| Chance & Collect 运气与收集 ⭐ |
Caillois Alea | 抽卡、转盘、盲盒、运势、命运 | NFC 实体卡 + IP 联名 | 实体道具高复购 |
⭐ 标记的四类是 AIGG 区别于纯软件竞品的护城河赛道——这些是手游做不了或做不好、AI 物理玩具天然契合的领域。Hybrid Casual 是商业主战场(2023 年市场收入增长 30%);Companion 是 LTV 护城河;Sports & Active 是硬件优势变现;Chance & Collect 是 IP 联名核心机制。
下面是"家庭桌游夜·爱心萌可主持版"的完整 IR:
activity: family_board_game_aiqkmk version: 1.0.0 # Layer 1 · Class / Genre / Subgenre(唯一归属) class: hybrid_casual genre: party_board_game subgenre: ai_hosted_card_game # Layer 2 · 多维 Tags(多选正交) caillois: primary: agon secondary: [mimicry, alea] mda_aesthetics: [fellowship, challenge, fantasy] aarseth: pace: turn_based player_composition: multiplayer_local teleology: finite # 平台调度参数 sync_paradigm: authoritative ai_roles: [referee, director, persona] ip: 爱心萌可 min_hardware_tier: companion time_horizon: session # 降级策略(鲁棒性一等公民) degrade_strategy: no_screen: skip_visual_score, use_audio_only one_device: round_robin_solo_mode network_loss: fall_back_to_ble_mesh
基于 Greimas(1966 行动元模型)+ Bartle(2004 NPC 类型学)+ Warpefelt(2016 实证)+ Bouquet(2021 Companion 设计空间)+ Rato & Prada(2021 ICEC)的学术综合。7 个角色 × 三轴 MECE 分类。
| 一级(Greimas 三轴) | 角色 | 学术对应 | 简述 |
|---|---|---|---|
| Action Axis 行动轴 |
Player(玩家) | Bartle Player / Greimas Subject | 作为活动的平等参与者下场玩 |
| Opponent(对手) | Greimas Opponent / Warpefelt Combat Challenge | 作为对手或挑战源存在 | |
| Helper(帮手) | Greimas Helper / Warpefelt Ally | 作为辅助角色帮助玩家 | |
| Communication Axis 传递轴 |
Director(导演) | TRPG Game Master / Warpefelt Quest Giver | 编排活动、发起任务、控制节奏 |
| Narrator(说书人) | 互动小说 Storyteller / Warpefelt Ambient | 叙事、描绘、营造氛围 | |
| Relational Axis 关系轴 |
Persona(伴角) | Bouquet Companion 完整设计空间 | 长期陪伴的固定身份 |
| Of-Activity 活动来源 |
Author(作者) | 新角色 · AIGG 特有 | 不参与活动,创造活动本身 |
Persona 是身份层(Identity),Player / Opponent / Helper / Director / Narrator 是位置层(Position)。
"小宝"(Persona)今天进入桌游 → 临时占据 Director 位;明天进入合作解谜 → 临时占 Helper 位;后天进入对战游戏 → 临时占 Opponent 位。不在任何活动里时,"小宝"就是 Persona 本身(Bouquet 7 维度里的纯陪伴状态)。Author 永远在云端,不下场。
| 玩法品类 | 必需角色 | Persona 通常占哪个位置 |
|---|---|---|
| 桌游 / 卡牌 | 1 Director + N Player | Director 或 Player |
| 解谜 / 密室 | 1 Director + N Narrator + N Opponent | Narrator(演反派) |
| 互动小说 / RPG | N Narrator(含旁白) | Narrator(主角搭档) |
| 恋爱叙事 | N Narrator | Narrator(恋爱对象,可长期化) |
| 角色扮演 / 过家家 | N Narrator | Narrator(任意分配) |
| 长线养成 | — | Persona 自身被养成 |
| 闲聊 / 陪伴 | — | Persona 自身 |
| 情绪日记 / 疗愈 | — | Persona(倾诉模式) |
| 教育训练 / 体感运动 | 1 Director / 1 Helper | Persona 占 Director 或 Helper 位 |
| UGC 创作 | 1 Author | — |
| 派对 / 家庭聚会 | 1 Director + N Narrator + N Player | Director 或 Player |
硬件层不是 BP 中"4 层金字塔 + 7 类 Chiplet"的浪漫描述,而是四档算力 × 8 类标准化模块 × 蜂窝接入 × 真实 BOM 的工程基线。每档硬件能力边界、每个模块的真实芯片选型、每个 SKU 的目标 BOM 都有数据支撑。
| 档位 | 代表芯片 | CPU | NPU/AI | RAM | 功耗 | BOM | 能力边界 |
|---|---|---|---|---|---|---|---|
| D1 微控档 | STM32WB / RTL8763E | M4 64MHz | 无 | 128KB-1MB | <100mW | $1-3 | 仅唤醒词、按键、灯光 |
| D2 嵌入档 | ESP32-S3 | LX7 240MHz×2 | 向量指令 | 8MB PSRAM | <500mW | $2-5 | 离线 ASR、TTS、轻量视觉 |
| D3 边缘档 | Rockchip RK3588 | A76×4 + A55×4 | 6 TOPS | 4-32GB | 5-10W | $25-80 | 本地 1B-3B LLM、实时视觉、运动控制 |
| D4 工作站档 | NVIDIA Jetson Orin/Thor | A78×8 | 100-275 TOPS | 8-128GB | 15-60W | $400-3500 | 7B+ LLM、运动规划、多模态融合 |
每个子板有标准化 PCB 接口(板对板连接器、协议)。新产品只需选模块组合,新 SKU 7 天打样、30 天量产。注意:BP 中"7 类模块"是简化叙事,工程上需要把"设备间互联"和"周边道具接入"分成独立的两类——它们解决的是完全不同的问题。
| 模块 | 关键芯片 | 接口 | 4 层产品组合 |
|---|---|---|---|
| 主控模块 | ESP32-S3 / RK3588 / Jetson | UART, I2C, SPI, USB | 必选 · 决定档位 |
| 语音模块 | 双 PDM / XMOS XU316 + 功放 | I2S | 所有层 |
| 视觉模块 | OV2640 / OV5640 + ISP | DVP / MIPI-CSI | 情感层选配 · 机器人必装 |
| 触觉模块 | IMU LSM6DSO + 触摸 + 压感 | I2C, SPI | 所有层必装 |
| 显示模块 | LCD/OLED + 触摸控制器 | SPI/MIPI-DSI | 情感层 / 机器人 |
| 运动模块 | 舵机 / 步进 / BLDC + 编码器 | PWM / CAN | 机器人必装 |
| 设备互联模块 (设备↔设备 / 设备↔云) | BLE 5.x + Wi-Fi + 蜂窝模块(可选) | UART / SPI / SDIO | 所有层必装 蜂窝可选(出门设备/独立机器人) |
| 周边接入模块 (主机↔道具) | NFC PN532 / BLE 扫描 / IR 收发 / 视觉识别协同 | I2C / SPI / DVP | 多种识别方式并行支持 |
真正的护城河是"主机 + 周边道具"的生态模式,不是某一种具体的识别技术。BP 中"卡带经济"对应的是"AI 主机识别多种周边道具"的整体模式——周边可以是 NFC 卡片、可以是带 BLE 的电子道具、可以是带二维码的卡片让摄像头识别、可以是发出特定声波的玩具。所有这些识别方式都是平等的工具,应该并行支持,不应该把任何一种神化。
具体地说:NFC 适合"无源道具卡片"(成本极低、贴个标签就行),BLE 适合"有电子能力的活动道具"(机动小车、声光道具),IR 适合"对战类玩具"(可以收编市场上已有红外对战玩具),视觉识别适合"丰富的实体物品"(识别真实世界的杯子、积木)。架构层把"周边道具识别"作为一等公民,把这五六种识别方式抽象到统一的"周边接入协议"下面。
BP 的"卡带经济"概念覆盖范围远比"NFC 卡片"广得多。"主机+周边"生态需要一整套从无源到有源、从纸卡到电子玩具、从家庭用到游乐场用的完整硬件谱系。这部分是上一版漏掉的关键内容,本节系统补充。
"主机+周边玩偶"模式不是 AIGG 的发明,而是有 15 年成熟工业先例:
AIGG 的不同之处:① 主机不是屏幕游戏机,是物理玩偶 ② 周边不局限于"角色雕像",是各种道具 ③ 不依赖 IP 授权也能玩(自有 SKU + 第三方)④ 周边和玩偶组成有机整体,不只是"unlock 关卡"
| 形态 | 电子能力 | 道具单价 | 典型 SKU | 识别方式 |
|---|---|---|---|---|
| 无源道具 纸卡 / 印刷品 / 贴纸 |
无(被动识别) | ¥1-20 | NFC 卡片包、印刷地图、收集图鉴、IP 联名卡牌、迷你贴纸册 | NFC / QR / 视觉 |
| 结构化道具 积木 / 拼图 / 模型 |
无源 + 标识码 | ¥30-300 | NFC 嵌入积木、电子拼图、IP 角色雕像、迷你场景套装 | NFC / 结构识别 |
| 电子道具 带 BLE/IR 的玩具 |
MCU + 电池 + 灯/声/振 | ¥99-499 | 抢答按钮、星光灯、迷你打印机、玩具枪、激光剑 | BLE / IR / RF |
| 机动道具 可动的电子玩具 |
MCU + 电机 + 电池 | ¥199-999 | 遥控小车、机动小宠物、活动玩偶、电子飞行器、智能跳绳 | BLE 双向控制 |
这一类是"卡带经济"的成本主力——单价 ¥1-20,毛利可超 80%。
| NFC 标签型号 | 容量 | 单片成本 | 抗破解 | 适合用途 |
|---|---|---|---|---|
| NTAG213 | 180 字节 | ¥0.3-0.5 | 低 | 简单 ID 卡 · 大量铺货 |
| NTAG215 | 540 字节 | ¥0.8-1.5 | 中 | 含简单数据·主流选择 |
| NTAG216 | 924 字节 | ¥2-3 | 中 | 带防伪签名 |
| NTAG424 DNA | 416 字节 + 加密 | ¥4-8 | 高 | 限量款 · 防复制 |
| MIFARE Ultralight C | 192 字节 + 3DES | ¥3-6 | 高 | 高价值 IP 联名 |
无源道具的形态创新——不只是卡片:
电子道具用什么芯片?不需要主控 MCU 那么强大,几块钱的 BLE SoC 就够用。下面是典型 BOM 估算:
| 电子道具典型 SKU | 核心芯片 | BOM | 建议零售价 | 毛利 |
|---|---|---|---|---|
| BLE 抢答按钮 | nRF52810 + 按键 + LED + 1 节 AA 电池 | ¥18-25 | ¥99-129 | ~75% |
| BLE 星光灯 | nRF52810 + WS2812 灯阵 + 充电锂电 | ¥35-50 | ¥149-199 | ~70% |
| BLE 迷你打印机 | nRF52840 + 热敏头 + 锂电 | ¥80-120 | ¥299-399 | ~65% |
| IR 玩具枪 | STM8 + IR 收发 + 振动 + 灯 | ¥25-40 | ¥149-249 | ~75% |
| BLE 遥控小车 | nRF52810 + 双 N20 电机 + 锂电 | ¥60-90 | ¥249-399 | ~70% |
| BLE 智能跳绳 | nRF52832 + 霍尔传感器 + LCD | ¥50-75 | ¥199-299 | ~70% |
在游乐场和商场展厅场景,"周边"还包括大型互动装置——这块工业链已经非常成熟(中国自贡是全球动画装置制造中心,控制 65% 的全球供应)。AIGG 不需要自己做,但需要把它们纳入"主机-周边"协议生态。
| 装置类型 | 典型规格 | 成本 | AIGG 集成方式 |
|---|---|---|---|
| 动画恐龙 / 动物模型 | 真人尺寸 · IR/红外感应 | $500-4300 | 开放 API · 主机识别后触发动作 |
| 互动投影地面 | LiDAR + 投影仪 | $10000-50000 | 玩偶站上去触发场景切换 |
| AR 滑梯 / 秋千 | 动作传感 + 投影 | $5000-20000 | 跟踪孩子动作,画面响应 |
| 动画 NPC(站立式机器人) | 气动驱动 + 表情 | $3000-30000 | 双足/轮式机器人替代品 |
| 跨场景任务腕带 | BLE 加 NFC 双协议 | ¥30-80/个 | USJ Power-Up Band 模式 |
周边道具的商业逻辑和主机完全不同——主机是耐用品(一年买一只),周边是消耗品/收集品(每月新品、季度联名、年度限量):
| 发布频率 | 典型 SKU | 商业目标 |
|---|---|---|
| 每月新品 | NFC 卡片包、贴纸、小印刷品 | 持续 ARPU · 培养收集习惯 |
| 季度联名 | 电子道具、IP 角色雕像 | 大额客单 · 节日驱动 |
| 年度限量 | 带加密 NFC 的稀有款 | 溢价 · 收藏者群体 |
| 事件联动 | 电影/电视新作上映 · 体育赛事 | 蹭 IP 热度 |
所有周边道具必须遵守 AIGG 的"周边接入抽象层"协议(详见需求 E12)。统一抽象设计如下:
# 周边道具的统一描述符 schema peripheral_id: PROP-2026-AIQKMK-CARD-007 type: passive_card | active_electronic | structured_model | mechanic_toy recognition: primary: nfc protocol: NTAG215 data_uri: aigg://prop/PROP-2026-AIQKMK-CARD-007 capabilities: # 这个道具能做什么 can_emit: [light, sound] # 电子道具才有 can_sense: [button_press] can_move: false activates: # 接触主机后触发什么 activity: aiqkmk_kitchen_adventure role_in_activity: ingredient_card initial_value: { flavor: sweet, level: 3 } commercial: sku: AIQKMK-PACK-S03-008 retail_price: ¥39 ip_owner: SAMG · 爱心萌可 launch_date: 2026-06-01 expiry: never | seasonal | yearly safety: # 儿童安全 age_min: 6 choking_hazard: false battery_type: none | aaa | rechargeable
之前的视觉讨论只考虑了"主机的视觉",遗漏了一条独立维度:周边道具自身也可以有视觉。这是一个被低估的设计空间——点读笔已经存在 20 年并卖出几亿支,证明"小道具+小摄像头"是验证过的产品模式。AIGG 的卡带经济不应该只有"被识别"的道具,也应该有"会看"的道具。
| 类型 | 原理 | BOM 范围 | 典型产品 | AIGG 用途 |
|---|---|---|---|---|
| OID 光学识别笔 红外感光 |
红外感光头 + MCU + 喇叭 识别印刷品上的 OID 隐形码 |
¥50-200 | 毛毛虫点读笔 / 小达人点读笔 / 各种 IP 联名点读笔 | "点哪读哪"教育玩具 识字卡 / 双语启蒙 / 故事书 |
| CMOS 扫描翻译笔 OCR 摄像头 |
500-800 万像素 CMOS + 端侧/云端 OCR + AI |
¥349-999 | 有道词典笔 A7S/X7 Pro / 科大讯飞翻译笔 / 网易有道 | 扫读翻译 / 整页 OCR 跨语言学习 / 教辅辅助 |
| 扩展摄像头模组 USB / WiFi 外接 |
OV2640/OV5640 + ESP32-S3 / 蓝牙串口 | ¥30-150 | USB 内窥镜·WiFi 鸟巢摄像头·蓝牙趣拍照仪 | 给任何玩偶/玩具临时加视觉 探险游戏 / 拍照打卡 / 真实物品识别 |
OID(Optical Identification)是1990 年代台湾松翰科技发明的成熟技术——把肉眼几乎不可见的隐形码(0.5×0.5mm 微点阵)印在书本上,笔尖红外感光头识别后播放对应音频。第三代 OID 码组超 100 万,铺码精度达印刷品 1‰。
| 关键芯片 | 厂商 | 能力 | 典型 BOM |
|---|---|---|---|
| SN9P701 / 705 | 松翰 Sonix | OID2 (2,098 码) / OID3 (65,535 码) | ¥3-8 |
| SPCD11A / SPCE061A | 凌阳 Sunplus | MCU + Speech 软解·成本更低 | ¥2-6 |
| 松翰第三代 OID | 松翰 2024 | 码组 > 1,000,000·防伪强 | ¥10-15 |
OID 和 NFC 都是"无源道具识别",但解决不同问题:
在 AIGG 体系下:NFC 适合"卡片级识别"(这是哪一张卡);OID 适合"页面级识别"(在书的哪一页哪个角落)。两者并存,IP 联名图书可以两者都用——封面贴 NFC(识别整本书)+ 内页铺 OID 码(点哪读哪)。
有道词典笔系列是当下最成功的 AI 视觉道具——A7S(2025 上市,¥349)已集成豆包 / 千问 / DeepSeek / 子曰多模型集群,可在线 AI 问答;X7 Pro(¥999)配 800 万像素摄像头 + 4.1" 屏。它已经不是简单的"扫描翻译",是"带屏幕的视觉道具+AI"。
典型工程架构(以词典笔为例):
# 扫描翻译笔的硬件 / 软件栈 硬件层: - CMOS 摄像头: 800万像素·30fps·扫读模式 - 主控: 中端 SoC(如 RK3326S / 紫光展锐 W117) - 屏幕: 1.4-4.1 英寸 LCD / 墨水屏 - 连接: WiFi 2.4G + BLE 5 - 电池: 1500-3000mAh 软件层: - 本地 OCR: 中英文字识别(自研或 PaddleOCR) - 本地翻译: 离线词典 + 离线 NMT 模型 - 云端 AI: GPT/豆包/Qwen 接入·复杂问答 - 教材点读: 兼容 OID(部分型号) AIGG 集成: - 设备身份: 通过 BLE/WiFi 加入家庭 Mesh - 协议: 五类互联中的"主机↔周边道具"+"设备↔云" - 数据回流: 学了什么单词·读了什么书 → Persona 长程记忆
这是 AIGG 真正独特的设计空间——用一个 ¥30-150 的 BLE/WiFi 摄像头模组,让任何"无视觉的玩偶"或"无视觉的环境"临时获得视觉能力。
| 形态 | 规格 | BOM | 使用场景 |
|---|---|---|---|
| 夹式摄像头 | OV2640 + ESP32-S3 + 200mAh | ¥30-60 | 夹在玩偶头上让它"看见"·夹在书上当智能阅读伙伴·夹在桌边监控孩子学习 |
| 项链/胸针型 | 500 万像素·磁吸附 | ¥80-150 | 挂在孩子衣服上记录"今日所见"·生成绘本日记 |
| 桌面探险摄像头 | 3-5MP + 双向通话 | ¥100-200 | 放在房间各个角落让玩偶"远程视觉"·探险游戏的"侦察兵" |
| 玩具枪/望远镜 | 仿真造型嵌入摄像头 | ¥150-300 | "用望远镜寻宝"·瞄准游戏·真实场景识别 |
| USB 扩展接口 | 玩偶预留 USB-C 口·插任意 USB 摄像头 | 主机 +¥5 BOM 外设 ¥30-300 |
家长升级路径·教育机构按需配置 |
这是 AIGG 区别于其他 AI 玩具的核心创新点之一——既然摄像头让 BOM 上涨 ¥30-50,那不如把它从主机里拿出来,做成可拆卸/可叠加的"道具":
这是真正的"模块化视觉",对应 BP 中"卡带经济"的视觉版本。
除了"道具看世界",还有"道具让你看见虚拟"——AR 头盔 / VR 玩具 / 全息投影道具。这一类相对成熟但 BOM 偏高,AIGG 应放在 P2 阶段:
把"周边道具自身有视觉"和"主机视觉"结合,会涌现一些市面任何单一玩具都做不到的玩法:
| 玩法 | 用到的视觉道具 | 体验描述 |
|---|---|---|
| 探险寻宝 | 主机玩偶 + 望远镜形扩展摄像头 | 玩偶讲故事:"前方有宝藏!举起望远镜找找看!" 孩子拿望远镜对着房间扫——望远镜识别出 NFC 卡藏匿位置 → 玩偶:"就是那里!" |
| 双语启蒙 | OID 点读笔 + 主机玩偶 | 孩子用点读笔点书上的"apple"图 → 笔说"apple" → 主机玩偶接话:"你点的是苹果!它是英文 apple,中文苹果,红红的水果哦~"——OID 笔做"识别",主机玩偶做"扩展引导" |
| 真实物品互动 | 词典笔 / 扩展摄像头 + 主机玩偶 | 孩子用词典笔扫桌上的乐高积木 → 主机玩偶:"你拼的飞机真漂亮!"——把"扫描"和"陪伴对话"分到不同道具 |
| 多视角合作游戏 | 多个扩展摄像头在房间不同位置 | 玩偶游戏中:"小狐狸往左跑了!" 客厅角落的摄像头识别后报告 → 玩偶:"快追到沙发后面去!"——分布式视觉 |
| 记录今日所见 | 胸针/项链型摄像头 + 主机玩偶 | 孩子戴胸针摄像头出去玩 → 回家后玩偶:"今天在公园看到一只大狗对吧?我们一起画下来!" → 自动生成绘本日记 |
| 家长远程参与 | 家长 APP 摄像头 + 孩子家中主机 | 家长出差 → APP 摄像头看孩子的画 → 主机玩偶代家长说话"妈妈说画得真好!"——跨地点视觉 |
"主机识别周边道具"是一个通用问题,有 5 种以上的实现方式,每种适合不同场景。AIGG 应该并行支持这些方式,让创作者/IP 合作方根据道具特性自由选择。下面是它们的能力对比:
| 识别方式 | 道具成本 | 道具供电 | 识别距离 | 识别延迟 | 典型场景 |
|---|---|---|---|---|---|
| NFC 标签 13.56MHz RFID |
极低(¥0.5-2) | 无源 | <10cm 触碰 | <100ms | 卡片、贴纸、印刷道具 BP 卡带主力 |
| BLE 广播 2.4GHz |
中等(¥10-30) | 需电池 | 10-50m | 10-100ms | 机动小车、声光道具、抢答器、灯光道具 |
| 红外 IR 900nm |
低(¥3-10) | 需电池 | 线性 5m | <50ms | 对战类玩具(激光剑、玩具枪) 可收编市场已有 IR 玩具 |
| 视觉识别 QR / 物体识别 |
极低或免费 | 无源(被动) | 0.3-2m 视野内 | 100-500ms | 真实物品识别、印刷图卡、现场场景 |
| 声波识别 超声波 / 可听波 |
极低(¥1-3) | 道具发声/被动 | 1-5m | 200-500ms | 玩偶之间识别、敲击响应、音乐道具 |
| RF 固定码 433/868MHz |
低(¥5-15) | 需电池 | 线性 30m | <200ms | 遥控车、儿童家电、传统 RF 玩具 |
每种识别方式都有独特的物理特性和成本结构,AIGG 不预设"哪种最重要",而是把它们抽象到统一的"peripheral_recognition"协议下面。具体哪种适合,由 IP 合作方/创作者根据道具特性来选择:
玩偶/机器人/周边设备不应该被绑死在家里 Wi-Fi 上——出门、独立机器人、户外探索类玩法、跨家庭联机都需要蜂窝连接。AIGG 必须把蜂窝物联网作为一等公民支持。
| 蜂窝层级 | 峰值速率 | 模组成本 | 功耗特征 | AIGG 适用场景 |
|---|---|---|---|---|
| NB-IoT 3GPP Cat-NB |
<250kbps | $3-5 | 电池年级别 | 低带宽心跳、定位、远程唤醒("妈妈让小宝睡觉") |
| LTE-M / Cat-M1 | 1 Mbps | $5-10 | 电池月-年级别 | 支持移动 + 语音 外出陪伴(车上、奶奶家) |
| LTE Cat-1 / Cat-1bis | 10 Mbps | $8-15 | 中等 | 实时对话、流式音频 当前出门设备主流 |
| 5G RedCap / NR-Light | 50-150 Mbps | $15-30(下降中) | 中等 | 视频陪伴、机器人远程操控 2025+ 主推方向 |
| 5G eRedCap | ~10 Mbps | $10-20(预测) | 低 | 2026+ 预留 · 等模组成熟 |
BP 中"出海到 Walmart / Best Buy"的产品规划意味着必须考虑没有家庭 Wi-Fi 的场景——美国家长带孩子开车出门、欧洲奶奶家没有 Wi-Fi、户外露营场景。蜂窝模块(特别是 LTE-M / Cat-1bis / RedCap)是这些场景的唯一解。
AIGG 的蜂窝策略分三档:
同时考虑:eSIM(避免实体 SIM 卡儿童拆出来吞食的安全风险)+ 多运营商管理平台(中国移动 OneNet / 阿里云 IoT 蜂窝 / Hologram 等海外)+ 流量计费策略(绑入订阅,避免家长账单焦虑)。
| 协议 | 实测延迟 | 节点数 | 带宽 | 距离 | 适用场景 |
|---|---|---|---|---|---|
| NFC | <50ms | 1对1 | 424kbps | <10cm | 道具触发 |
| BLE 5.x 点对点 | 7.5ms-1s | 1主+多从 | 2Mbps | 10-50m | 设备配对、控制 |
| BLE Mesh @ ESP32-S3 | 4.5ms 中位 / 50ms+ 99 分位 | 实测 100 | <1Mbps | 50m/跳 | 多玩偶组网 |
| Thread | 1ms 中位 / 30ms 99 分位 | 250 | 250kbps | 30-100m | 智能家居(远期) |
| Wi-Fi 6 局域网 | 2-10ms | 50+ | 1.2Gbps | 30-50m | 视频流、大文件 |
| Wi-Fi Direct | 2-10ms | 8 设备 | 250Mbps | 30-50m | 玩偶间高带宽传输 |
| LTE Cat-1bis | 50-100ms | — | 10Mbps | 蜂窝覆盖范围 | 出门设备 · 流式对话 |
| 5G RedCap | 20-50ms | — | 50-150Mbps | 5G 覆盖范围 | 独立机器人 · 视频陪伴 |
BLE Mesh 99 分位延迟 50ms+,不能用"实时收到信号再响应"实现 ≤50ms 灯/音/震同步。正确做法:① 统一时钟同步(PTP-like 协议)② 提前调度("3 秒后所有玩偶同时亮灯",不是"立刻亮灯")③ 用 Wi-Fi Direct 跑实时游戏 lockstep,BLE Mesh 用作低带宽信令。
视觉硬件不是"加个摄像头"那么简单。AIGG 不同档位/不同场景需要完全不同类型的视觉硬件——从 ¥10 的单目 RGB 摄像头到 ¥3000+ 的工业级 RGB-D 立体相机。本节系统调研,明确选型规则。
| 类型 | 原理 | 测距能力 | FOV / 精度 | BOM 范围 | 适合 AIGG 哪层 |
|---|---|---|---|---|---|
| 单目 RGB | 普通 CMOS 摄像头 | 无(仅 2D) | 60-120° / 1-8MP | $1-15 | 情感层 / 轮式机器人头部 |
| 立体双目 | 两个 RGB 摄像头三角测距 | 0.3-10m·中精度 | 70-178° / 厘米级 | $30-200 | 轮式机器人导航 |
| ToF(飞行时间) | 红外脉冲计时 | 0.1-5m·高精度 | 40-100° / 毫米级 | $15-100 | 避障·手势识别·机器人灵巧操作 |
| 结构光 | 红外散斑投影 + 摄像头 | 0.2-3m·亚毫米精度 | 50-90° / 亚毫米 | $80-500 | 双足机器人精细操作(拿杯子、折衣服) |
| 型号 | 类型 | 规格 | 实际价格 | AIGG 用途 |
|---|---|---|---|---|
| OV2640 | RGB | 200 万像素·60° FOV | ¥6-15 | 情感层入门款"眼睛" |
| OV5640 | RGB | 500 万像素·1080P·自动对焦 | ¥20-40 | 情感层旗舰款·拍照陪伴 |
| OV2710 (Wide FOV) | RGB 广角 | 200 万像素·160° FOV | ¥30-60 | 轮式机器人 360° 监控 |
| VL53L7CX (ST ToF) | ToF | 8x8 区域·4m 范围 | ¥30-50 | 避障·近距离手势 |
| Arducam T2 | RGB-D ToF | VGA·1% 精度·55fps | ¥300-600 | 家庭机器人深度感知 |
| Orbbec Gemini 305 / 330 | 立体 + ToF | 1280×800·60fps·sub-mm 精度 | ¥1500-3000 | 双足机器人专业级 |
| Intel RealSense D435i | 立体 RGB-D | 1280×720·30fps·IMU 集成 | ¥2000-2500 | 研发原型·轮式机器人开发 |
| OAK-D Lite | 立体 RGB-D + 边缘 NPU | 本地 AI 推理 4 TOPS | ¥1200-1800 | 轮式机器人智能视觉 |
视觉是 AI 玩具的护城河,但也是最贵的硬件升级。市面所有 ¥199 价位的 AI 玩偶都不带摄像头是 BOM 决定的——加摄像头要+ $5-8。
AIGG 的视觉差异化策略:把视觉作为情感层及以上的差异化卖点——基座层精灵不装;情感层选配(入门款无视觉、旗舰款必有);机器人必装专业级。这样既不增加基座层成本,又让"升级到情感层"有清晰的体验跃迁。
AI 玩具不是"一个 LLM 解决一切"——这是死路。真实需要 6 类模型独立选型:唤醒词 / ASR / LLM / TTS / 视觉 / 情感。每类模型有自己的延迟、成本、隐私要求。
| 类别 | D2 选型 | D3 选型 | 云端选型 | 关键决策 |
|---|---|---|---|---|
| 唤醒词 KWS | WakeNet(ESP-IDF 内置) | OpenWakeWord | — | 必须本地 |
| ASR 语音识别 | 云端为主 + 本地兜底 |
本地 Whisper-tiny + 云端兜底 |
阿里 Paraformer / Whisper-Turbo / Distil-Whisper | 儿童语音必须微调,WER 提升 5-10% |
| LLM 对话 | 完全云端 | 本地 Qwen3-1.7B/4B + 云端补充 |
Qwen-Plus / 豆包 Pro / DeepSeek-V3 | 国产 LLM 比 OpenAI 便宜 50-100 倍 |
| TTS 语音合成 | 云端为主 | 本地 VITS + 云端高质 |
CosyVoice(音色克隆)/ Edge TTS | 每个 IP/Persona 独立音色 |
| 视觉模型 | 不装 | YOLO11n + MediaPipe | Qwen2-VL / Moondream 2 | 体感游戏用 MediaPipe Pose |
| 情感识别 | — | Wav2Vec2-SER + FER+ | — | PAD 三维持续追踪 |
| 模型 | 千次输入 token(¥) | 千次输出 token(¥) | 评价 |
|---|---|---|---|
| OpenAI GPT-4o | ≈¥18 | ≈¥72 | 不推荐 · 成本不可承受 |
| OpenAI GPT-4o-mini | ≈¥1.1 | ≈¥4.3 | 备选 |
| Qwen-Plus(阿里) | ¥0.08 | ¥0.20 | ⭐ 推荐主力 |
| 豆包 Pro(字节) | ¥0.0008/k | ¥0.002/k | ⭐ 最便宜 |
| DeepSeek-V3 | ¥0.0005/k | ¥0.002/k | ⭐ 性价比之王 |
| 位置 | 框架 | 选择理由 |
|---|---|---|
| ESP32-S3 端 | TFLite Micro | 仅 KWS、轻量分类 |
| RK3588 端 | llama.cpp + RKNN-Toolkit | NPU 直接调用,TinyLlama 1.1B 实测 10-15 tok/s |
| Jetson Orin 端 | TensorRT-LLM | NVIDIA 生态最优 |
| 跨设备统一抽象 | ONNX Runtime | 作为兜底标准 |
| 云端高并发 | vLLM | HuggingFace TGI 已停止维护,业界已转向 vLLM |
| 云端 Agent 路径 | SGLang | RAG / 多轮对话优化 |
同一 AI 功能在不同硬件上跑法不同。以"语音对话"为例:
视觉是 AIGG 从"会聊天的 AI 玩偶"跃升为"懂世界的 AI 伙伴"的关键能力。没有视觉,玩偶只能听见你;有了视觉,它能看见你画的画、识别你养的真宠物、看出你今天表情有点累、跟你的手势互动。视觉栈分四层:底层视觉 → VLM 视觉语言 → VLA 视觉语言动作 → 多模态融合。
| 模型 | 参数量 | 4-bit 大小 | 跑在哪 | 典型能力 | AIGG 用途 |
|---|---|---|---|---|---|
| Moondream2 | 1.8B | ~1GB | RK3588 / Jetson Orin Nano | 计数、图表理解、object detection | 情感层旗舰款本地视觉问答 |
| SmolVLM | 500M / 2B | ~300MB-1.2GB | Web 浏览器都能跑 | 轻量场景描述、OCR | 创作者工具内嵌 / 简单识别 |
| Florence-2 | 0.23B / 0.77B | ~100-400MB | RK3588 流畅 | 检测+caption+OCR 多任务 | NFC + 视觉双重道具识别 |
| Qwen2.5-VL-3B | 3B | ~1.8GB | Jetson Orin / 云 | 视频理解·125K context·中文好 | 机器人深度视觉问答 |
| Qwen2.5-VL-7B | 7B | ~4GB | Jetson Orin Thor / 云 | SOTA 开源视觉理解 | 云端高级视觉路径 |
| Gemma 3 4B | 4B | ~2.5GB | Jetson Orin / 云 | 140+ 语言·OCR 强 | 多语言市场(出海) |
| Qwen2.5-VL-72B / GPT-4o / Gemini 2.5 | 72B+ | 云端 | 云 | SOTA 全场景 | UGC 创作者工具复杂理解 |
AIGG 视觉 VLM 三档策略:
VLA 是 2023-2025 年机器人 AI 最大突破——从"识别物体 + 单独写控制策略"变成"视觉+指令直接生成动作序列"的端到端模型。这是 AIGG 锚定层(双足机器人)和场景层(轮式机器人)的核心 AI 能力。
| VLA 模型 | 来源 | 参数量 | 开源 | 关键特性 |
|---|---|---|---|---|
| RT-2 | Google DeepMind 2023 | 5B / 55B | 否 | VLA 范式开创者·涌现推理能力 |
| OpenVLA | Stanford 2024 | 7B | ✓ 开源 | 970K 真实机器人演示·可消费级 GPU 微调 |
| Octo | UC Berkeley 2024 | 27M / 93M | ✓ 开源 | 极轻量·边端友好 |
| π0 (Pi-Zero) | Physical Intelligence 2024 | ~3B | ✓ 开源 | flow-matching·50Hz 高频·折衣服级精细操作 |
| GR00T N1 | NVIDIA 2025 | 未公开 | ✓ 权重公开 | 专为人形机器人·sim2real 流程齐全 |
| Helix | Figure AI 2025 | 未公开 | 否 | 双系统架构·首个高频控制人形上半身 |
| Gemini Robotics | Google DeepMind 2025 | 未公开 | On-Device 版 | Gemini 2.0 backbone·折纸玩牌级灵巧 |
| SmolVLA | Hugging Face 2025 | 450M | ✓ 开源 | 极小但性能接近 OpenVLA·LeRobot 数据 |
AIGG 应该立即跟进 VLA 但不要自研基础模型——这是 NVIDIA / Google / Physical Intelligence 这种公司花数十亿美元做的事。
正确策略:
| 场景 | 视觉能力需求 | 选型 | 价值 |
|---|---|---|---|
| 识别孩子的画 | VLM 看图说话 | 云端 Qwen2.5-VL | "哇,你画的小狗有蓝色的耳朵真有创意!"——比纯语音陪伴温度高 10 倍 |
| 识别真实物品(玩偶认识你的杯子) | VLM + 长程记忆 | 本地 Florence-2 + 云 VLM | "你的红色水杯今天没在桌上呢"——让玩偶懂你的家 |
| 识别情绪表情 | FER+ 专用模型 | 本地 5MB 模型 | "今天看起来不太开心呀"——情感陪伴的眼睛 |
| 识别道具卡(视觉作为 NFC 备份) | YOLO 自训练 + OCR | 全本地 | 无 NFC 时仍可识别·扩大道具兼容性 |
| 识别手势 / 体感动作 | MediaPipe Pose / Hands | 全本地 CPU | 跳绳计数·瑜伽姿势·健身游戏裁判 |
| 视频通话陪伴(家长远程参与) | 实时视觉流 | 商业 WebRTC | 家长出差陪孩子玩游戏 |
| 识别真宠物("你养的小狗") | 动物识别 + 个体识别 | 云端微调模型 | 玩偶认识你的真宠物·跨虚实关系 |
| 读绘本 / 教材 | OCR + VLM | 本地 Florence-2 | "我们一起读这个故事"·教育市场关键能力 |
| 轮式机器人导航避障 | 立体视觉 / ToF + SLAM | RK3588 NPU | 商场 / 乐园场景必装 |
| 双足机器人灵巧操作 | VLA · π0 / GR00T | Jetson Orin Thor | "把杯子拿到桌上"自然指令直接执行 |
视觉模型用在儿童产品上有极高的内容安全要求。Google 在 2025 年推出 ShieldGemma 2 — 专门做多模态安全过滤的开源模型,把图像 + 内容策略作为输入输出"安全/不安全"判断。
视觉模型很厉害,但 AIGG 的真正价值是多设备 + 多模态视觉协同——这是单玩偶视觉做不到的:
视觉数据不只来自"主机摄像头",也来自"周边道具的摄像头"——这改变了视觉数据流的来源拓扑。AIGG 必须把所有视觉来源统一到一套处理管线下:
关键设计原则:
AIGG 软件层不是一套,而是 5 套各自独立又必须互联的子系统。每个子系统的选型、协议、互联方式都需要明确。其中互联协议层(E)是最被低估、但工程难度最高的一层。
| 场景 | 协议主选 | 协议备选 | 关键问题 |
|---|---|---|---|
| 设备 ↔ 设备 (家庭内多玩偶) |
BLE Mesh(信令) + Wi-Fi Direct(数据流) |
Thread(远期) | 同步精度、Mesh 自愈、QoS 分通道 |
| 主机 ↔ 周边道具 (识别 + 控制) |
NFC(无源卡片) + BLE(有源道具) + IR(对战玩具) |
视觉识别 / 声波识别 / RF 固定码 | 多识别方式平等并行抽象 |
| 设备 ↔ APP | BLE GATT(配对) + MQTT over WSS(运行时) |
WebRTC(音视频) | 配对易用性、安全 |
| 设备 ↔ 后端云 | MQTT 5.0 over TLS(家庭 Wi-Fi) | HTTPS(兜底) | 弱网保活、消息持久化 |
| 设备 ↔ 蜂窝网络 (出门 / 独立机器人) |
LTE Cat-1bis(当前主流) + 5G RedCap(2025+ 升级路径) |
LTE-M / NB-IoT(低功耗低带宽场景) | eSIM 安全、流量计费、多运营商管理 |
五类互联是五类本质不同的工程问题,不能混为一谈:① 设备↔设备 解决多玩偶协同;② 主机↔周边 解决"卡带经济"的物理映射;③ 设备↔APP 解决用户控制;④ 设备↔云 解决 AI 推理与持久化;⑤ 设备↔蜂窝 解决离开家庭 Wi-Fi 的连接。每一类都有独立的协议栈、安全模型、QoS 策略。架构层把它们抽象成五个并列的 Connectivity Adapter,上层应用按需调用。
家庭里要同时跑控制信令、语音流、游戏状态同步、文件下载——延迟/带宽需求差异极大,必须分通道。
| 通道 | 用途 | 延迟要求 | 主要走 |
|---|---|---|---|
| 1. 控制信令(硬实时) | 道具触发、按键事件、同步时钟 | <20ms 不能丢 | BLE / NFC + ACK 多无线电冗余 |
| 2. 多模态媒体流(软实时) | 语音、视频、实时音效 | <100ms 可丢包 | Wi-Fi Direct + FEC |
| 3. 状态同步(尽力而为) | CRDT 增量、计分、玩家状态 | <500ms 本地优先 | Wi-Fi 或 BLE Mesh |
| 4. 大文件(低优先) | OTA、模型更新、剧情资源包 | 延迟无感,断点续传 | Wi-Fi 或 4G,仅充电时占带宽 |
把"家庭"作为一等公民概念(family_id),不只是单个设备。
# 设备上行(Device → Cloud) ap/v1/{tenant}/{device_id}/up/telemetry # 心跳、状态 ap/v1/{tenant}/{device_id}/up/event # 用户互动事件 ap/v1/{tenant}/{device_id}/up/ai/asr # ASR 流式上传 ap/v1/{tenant}/{device_id}/up/data/{type} # 数据飞轮回流 # 设备下行(Cloud → Device) ap/v1/{tenant}/{device_id}/dn/cmd # 控制命令 ap/v1/{tenant}/{device_id}/dn/ai/llm # LLM 流式回复 ap/v1/{tenant}/{device_id}/dn/ai/tts # TTS 音频流 ap/v1/{tenant}/{device_id}/dn/activity/load # 推送活动 IR ap/v1/{tenant}/{device_id}/dn/ota/{channel} # OTA 通知 # 设备影子(Device Shadow) $shadow/{device_id}/desired # 期望状态 $shadow/{device_id}/reported # 上报状态 $shadow/{device_id}/delta # 差量 # 多设备协同(家庭命名空间) ap/v1/{tenant}/{family_id}/family/sync # 家庭内同步 ap/v1/{tenant}/{family_id}/family/host_election # Host 选举 # 创作者后台 ap/v1/{tenant}/creator/{author_id}/up/ir/submit # IR 提交 ap/v1/{tenant}/creator/{author_id}/dn/review # 审核结果
设备 → 阿里云 IoT 平台(接入层)→ EMQX 集群(业务总线)→ K8s 微服务集群 业务后端微服务(K8s) ├─ 用户服务(Go/Java) ├─ 设备管理服务(Go) ├─ 活动 IR 服务(Python) ├─ AI Gateway(Python · LLM 路由 + 缓存) ├─ 内容市场服务(Go) ├─ 创作者经济(Go) ├─ 数据飞轮服务(Python) └─ 计费服务(Java) 数据存储层 ├─ PostgreSQL(业务主数据库) ├─ Redis(缓存 + 实时状态) ├─ MongoDB(活动 IR、剧情) ├─ ClickHouse(用户行为分析) ├─ Milvus(向量检索 · L2/L3 记忆) ├─ MinIO/OSS(资源 + 录音备份) └─ Kafka(事件流) AI 推理层 ├─ vLLM 集群(自建大模型) ├─ 阿里 Qwen-Plus / 豆包(云 LLM 主力) ├─ 阿里 ASR / Paraformer(云 ASR) ├─ CosyVoice / Edge TTS(云 TTS) └─ Triton Server(视觉模型) 支撑层 ├─ APISIX(API 网关) ├─ Nacos(服务注册) ├─ Prometheus + Grafana(监控) ├─ ELK Stack(日志) └─ Sentry(错误追踪)
每条需求都有目标 + 衡量标准 + 不要做什么。三件齐才算需求,少任一件均为愿景。优先级:P0 = MVP 必须 · P1 = 12 个月内必须 · P2 = 预留扩展。
本章列出 12 个工程需求簇(A-L 共 108 条)。第 13 个需求簇——⊙ 用户场景簇(11 条)——按其作为"所有需求起点"的特殊性质,已嵌入§00 用户场景与体验愿景章节末尾,不在本章重复展示。
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| A1 | 统一抽象 Role × Activity不分游戏 vs 陪伴运行时 | 所有玩法用一套抽象描述
| P0 |
| A2 | 双引擎协作规则引擎 + AI 引擎按比例混合 | 活动 IR 显式声明两者比例和边界
| P0 |
| A3 | 三层 IRScene / Logic / Primitive | YAML/JSON·LLM 可生成·静态可校验
| P0 |
| A4 | 三种同步范式Authoritative / Lockstep / Eventual | 活动 IR 显式声明
| P0 |
| A5 | 三层记忆Working / Episodic / Semantic | L1 断电即失·L2 30 天·L3 永久脱敏
| P0 |
| A6 | 两段式放置规划编译期穷举 + 运行时查表 | 10-20 种典型组合预生成 plan
| P0 |
| A7 | NUI 多模态交互作为一等抽象 | 活动 IR 中交互方式显式声明(语音/视觉/触觉/手势/姿态/表情/空间)·多通道融合统一意图理解
| P0 |
| A8 | 游戏性七维度作为可衡量目标 | 每个活动 IR 显式声明在 7 维度上的预期表现:动态生成内容比例·实时反馈延迟·自适应难度策略·声光电协同·人格连续性·剧情张力·跨设备协奏度
| P0 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| B1 | 6 大 Activity ClassCasual / Hybrid Casual / Mid-core / Companion / Sports & Active / Chance & Collect | 单归属性原则,每活动唯一所属 Class | P0 |
| B2 | 25 个 Genre覆盖主流玩法 | Match-3 / RPG / Card Battle / Pet Care / Fitness / Blind Box 等 | P0 |
| B3 | 支持 27 类玩法桌游到健身环到情绪日记 | 不为每类玩法单独写引擎 | P0 |
| B4 | 多维 TagsCaillois × MDA × Aarseth × IP × AI 角色 | 主分类唯一·次维度多标签 | P0 |
| B5 | 3 种结构类型强规则 / 混合 / 弱规则 | 不强行让弱规则套用强规则同步机制 | P0 |
| B6 | 3 种时间尺度短时 / 中时 / 长线 | 不让长线活动绑定单次会话生命周期 | P0 |
| B7 | 3 种参与规模单人 / 多人本地 / 跨家庭 | 本地 P0 · 跨家庭 P2 | P0 |
| B8 | UGC 用户能创作并发布一句话+道具组合 | 私人分享 vs 公开发布两档
| P1 |
| B9 | UGC 热门反向驱动实体 SKU社区数据回流供应链 | SHEIN 式快反·7 天打样 30 天量产 | P2 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| C1 | 7 个一级角色分类Player / Opponent / Helper / Director / Narrator / Persona / Author | 不引入新角色不走 RFC
| P0 |
| C2 | 所有角色共享 Agent 框架区别只在配置 | 权限 / 记忆 / 原语调用 不同
| P0 |
| C3 | Persona 是身份 vs 位置层分离 | Persona 进入活动临时占位
| P0 |
| C4 | 同一 AI 实例可在角色间切换 | "小宝"早上 Helper、下午 Director、晚上 Persona | P0 |
| C5 | 角色切换/占位用户可感知 | "今天小宝当裁判哦"显式宣告
| P0 |
| C6 | 角色协作 8 条硬规则 | 一活动一 Director·Persona 占位需明示·Persona 倾诉时其他角色静默·Author 永远云端 | P0 |
| C7 | Persona 持续性人格跨活动保持性格、口头禅、偏好 | BP "16 种性格养成"落地
| P0 |
| C8 | 角色用户实证可分辨Warpefelt 方法论 | 100 人测试,角色辨识度 ≥70% | P1 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| D1 | Persona 身份与设备解耦云端权威唯一身份 | 玩偶丢失/损坏角色不丢
| P0 |
| D2 | 三层记忆架构 + 主动遗忘L1/L2/L3 + 用户一键忘记 | L1 断电即失·L2 30 天·L3 永久脱敏 | P0 |
| D3 | 主动唤起的克制策略 | 时间/情境/事件三种触发·无回应自动衰减·单日打扰预算·家长可调 | P0 |
| D4 | 情绪状态有持续性PAD 三维建模 | 玩偶/用户情绪都建模·跨天演变·影响声线/灯光/反应速度 | P1 |
| D5 | 离线时角色继续生活云端轻量模拟 | 每小时一次·生成事件流·用户回家时玩偶能"讲述刚才"
| P1 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| E1 | 主控芯片选型按档分层D1/D2/D3/D4 | 基座层 ESP32-S3 · 情感层 ESP32-S3+协处理器或 RK3576 · 机器人 RK3588 · 双足 Jetson Orin | P0 |
| E2 | 4 层硬件运行同一活动 IR | 同一活动 IR 在精灵/宠物/轮式/双足都能跑(按硬件能力降级) | P0 |
| E3 | 上层不感知具体硬件型号通过 Capability Descriptor 抽象 | 新型号上市不改上层代码
| P0 |
| E4 | 必装传感器套件 | 所有玩偶必装:IMU + 麦克风 + LED + 至少一种周边接入方式(NFC / BLE / 视觉 任选) | P0 |
| E5 | 选装传感器分级 | 视觉/ToF/4 麦阵列按产品层级选配 | P0 |
| E6 | Chiplet 模块化设计(8 类) | 主控/语音/视觉/触觉/显示/运动/设备互联/周边接入·标准板对板接口·新 SKU 7 天打样 | P0 |
| E7 | 电源管理分级 | 基座层 1500mAh / 情感层 3000mAh + 无线充 / 机器人 AC 或大容量 | P0 |
| E8 | 设备互联多协议(设备↔设备 / 设备↔云) | BLE 5.x(必)+ WiFi(必)+ Thread(远期)+ 蜂窝模组(按 SKU 选配,见 E11)
| P0 |
| E9 | 时钟同步精度 ≤10ms | 用 PTP-like 协议同步家庭时钟,配合提前调度实现 ≤50ms 灯/音/震精度 | P0 |
| E10 | BOM 成本约束 | 基座层 ≤$25·情感层 ≤$80·机器人 ≤$1000
| P0 |
| E11 | 蜂窝物联网三档支持玩偶/机器人/周边设备的远程连接 | 不带 / 选配(LTE-M / Cat-1bis)/ 必装(5G RedCap)三档·eSIM 替代实体 SIM·多运营商管理
| P1 |
| E12 | 周边道具接入抽象层多识别方式平等并行 | NFC / BLE / IR / 视觉 / 声波 / RF 固定码 抽象到统一peripheral_recognition协议
| P0 |
| E13 | 周边道具 4 大形态全覆盖无源 / 结构化 / 电子 / 机动 | 每种形态有标准化硬件参考设计·BOM 数据明确
| P0 |
| E14 | 周边道具发布节奏月-季-年三档 | 月度新品 NFC 卡 + 季度联名电子道具 + 年度限量加密款·SHEIN 式快反
| P1 |
| E15 | 大型互动装置开放接入游乐场 / 商场场景 | 动画恐龙 / 投影地面 / AR 装置等通过开放 API 接入·不自己制造
| P2 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| F1 | 同一 AI 功能多版本tiny/small/medium/cloud | 平台自动选版本
| P0 |
| F2 | 关键功能断网时降级 | 本地 fallback·规则引擎完全本地·AI 引擎可本地降级 | P0 |
| F3 | 规则引擎完全本地运行 | 毫秒级响应·确定性·不依赖云
| P0 |
| F4 | AI 引擎可跨节点切换 | 200-500ms 切换·填充音掩盖延迟
| P1 |
| F5 | 沉浸感预算关键时刻不能卡 | 同步精度 ≤50ms·响应延迟 ≤300ms·断流次数 ≤1次/小时 | P1 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| G1 | 家庭内自动组网 | 2-6 设备·开机即被发现·无需 APP 配对·任意玩偶可作协调者 | P0 |
| G2 | 单设备故障不中断活动 | 协调者掉线 200ms 内被接管·状态零丢失·用户基本无感 | P0 |
| G3 | 关键时刻同步精度 ≤50ms | 灯/音/震多设备同步精度 | P0 |
| G4 | 多 AI 角色协同不撞人格 | 多个玩偶各自有人格,遵守 8 条角色协作硬规则 | P0 |
| G5 | QoS 4 类分通道传输 | 控制信令 / 媒体流 / 状态同步 / 大文件 四类独立通道 | P0 |
| G6 | 异地玩偶联机跨家庭 | 云端中转·延迟 <200ms | P2 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| H1 | 6 类 AI 模型独立选型KWS/ASR/LLM/TTS/Vision/Emotion | 各自有专门管理流水线
| P0 |
| H2 | 国产云 LLM 优先 | MVP 主力对接 Qwen-Plus / 豆包 / DeepSeek,不依赖 OpenAI | P0 |
| H3 | 端侧 LLM 本地兜底RK3588+ 必须能跑 1B+ 模型 | 本地 Qwen3-1.7B 或更大 | P0 |
| H4 | 儿童语音 ASR 微调 | 用儿童语音数据集 LoRA 微调,WER 提升 5-10% | P1 |
| H5 | TTS 多音色支持每个 IP/Persona 独立声音 | CosyVoice 克隆主声音 + VITS 边端 fallback | P0 |
| H6 | 视觉模型分级部署 | YOLO11n(基础)→ Moondream/Qwen-VL(高端) | P1 |
| H7 | 推理框架选定 | 边端 llama.cpp + RKNN,云端 vLLM | P0 |
| H8 | Agent 框架自研 | 不依赖 LangChain,参考 CrewAI 哲学自研 | P0 |
| H9 | 内容安全 Day 1 集成 | 文本/图像/语音三道护栏(阿里绿网/腾讯天御) | P0 |
| H10 | 数据飞轮工程化 | 脱敏 → 弱监督 → LoRA → OTA 全流程自动 | P1 |
| H11 | 模型 OTA 推送基础设施 | 每个产品能独立更新模型 | P0 |
| H12 | A/B 测试框架 | 模型迭代用真实流量验证 | P1 |
| H13 | LLM 路由策略 | 根据复杂度路由到本地或云、不同档次模型 | P0 |
| H14 | LLM 缓存机制 | 高频 prompt 结果缓存,降低成本 | P1 |
| H15 | 端侧模型量化 | 4-bit (W8A8) 标准·关键场景 BF16 | P0 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| I1 | 端上 OTA + 回滚 | A/B 双分区,失败自动回滚 | P0 |
| I2 | 端上数据加密本地存储 AES-256 | 密钥由设备 EFUSE 派生·防止固件被刷 | P0 |
| I3 | 雾节点自动选举 | 任意 D2+ 玩偶可担任·断开 200ms 内重选 | P0 |
| I4 | 雾节点本地缓存与降级 | 断网时仍可玩 70% 活动 | P0 |
| I5 | 家长 APP 跨平台 | iOS + Android 同等体验·React Native + Expo | P0 |
| I6 | 创作者 Web 工具 | 浏览器内可创作、模拟、发布·Next.js | P1 |
| I7 | 后端微服务架构K8s 部署 | 水平可扩展·阿里云 ACK | P0 |
| I8 | MQTT 设备总线EMQX 集群 | 单集群支持 100 万设备 | P0 |
| I9 | 设备配对兼容 Matter 1.4.1 | 配对流程符合 Matter 设计·NFC onboarding 兼容 | P0 |
| I10 | 五类互联协议栈 | 设备↔设备 / 主机↔周边 / 设备↔APP / 设备↔云 / 设备↔蜂窝 五套独立协议栈,五个并列 Connectivity Adapter | P0 |
| I11 | Topic 命名空间设计 | tenant / family / device 三层·支持多租户 | P0 |
| I12 | 设备影子机制 | desired/reported/delta·离线时缓存命令 | P0 |
| I13 | 实时音频流通道 | WebSocket + Opus·延迟 <300ms | P0 |
| I14 | 远程视频陪伴 | 商业 WebRTC SDK 集成(声网/即构) | P1 |
| I15 | 多模型路由 | 根据复杂度自动决定本地/云 | P0 |
| I16 | 隐私脱敏代理雾节点责任 | 出户数据自动脱敏 | P0 |
| I17 | 监控与告警 | 设备掉线·AI 错误·内容安全实时告警 | P0 |
| I18 | A/B 测试框架(家庭维度) | 可针对家庭/活动维度做实验 | P1 |
| I19 | 多区域部署 | 国内/海外独立部署·数据不出境 | P1 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| J1 | 儿童数据合规COPPA/GDPR-K | 原始语音/人脸不上云·家长授权·可导出可删除·平台审计可追溯 | P0 |
| J2 | Persona 倾诉模式隐私加固 | 倾诉内容本地处理优先·其他角色静默·永不商业化
| P0 |
| J3 | UGC 内容审核 4 闸管线 | 语法 / 安全 / 仿真 / 真人 Beta·私人前两闸·公开全过 | P1 |
| J4 | 数据飞轮支撑模型迭代 | 脱敏后回流·用户/环境/动力学三类分管
| P1 |
| J5 | 三层记忆主动遗忘 | L1→L2 时丢 90% 细节·L2→L3 时丢 95%·用户可一键忘记 | P0 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| K1 | 头部 IP 联名活动上线 | 6 个授权 IP 已签·每月新增 IP 内容能力 | P0 |
| K2 | PGC 工作室高效产出 | 可视化创作工具·L2 模板可复用·一活动立项到上架 ≤4 周 | P1 |
| K3 | UGC 用户零代码创作 | 自然语言 + 道具组合 → AI Author 翻译为 IR·≤5 分钟出可玩版本 | P1 |
| K4 | AI 自身可创作活动Author 角色 | 根据用户兴趣自动生成新活动
| P1 |
| K5 | L1 原语集稳定演进 | 11 个原语·新增走 RFC·向后兼容·UGC 不能直接调 L1 | P0 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| L1 | 模拟器 = 平台运行时虚拟版本 | 同一活动 IR 在模拟器和真实玩偶上行为一致
| P0 |
| L2 | 支持纯 LLM 模拟玩家行为 | "自动跑 100 局"AI 模拟玩家完整玩通 | P0 |
| L3 | 支持人类用户接入 | 创作者自己当玩家在 web/APP 里玩 | P0 |
| L4 | 模拟虚拟设备组合 | 模拟"2 精灵 + 1 机器人"等环境 | P0 |
| L5 | 模拟弱网/断网/单设备故障 | 主动"断网"看活动如何降级 | P0 |
| L6 | 模拟不同 AI 角色行为 | 同一活动在 Director=温柔 vs Director=严厉表现不同 | P1 |
| L7 | 输出可玩性指标报告 | 平均时长·完成率·卡死率·单一胜者率·玩家情绪曲线 | P0 |
| L8 | 录制 + 回放 | 模拟一局后能回放·定位问题环节 | P1 |
| L9 | 时间加速 | 长线养成"快进 30 天"看长期效果 | P1 |
| L10 | 模拟器与发布管线集成 | 通过模拟器报告的活动直接进 4 闸校验"闸 3 仿真" | P0 |
| ID | 需求 | 衡量标准 | 优先 |
|---|---|---|---|
| V1 | 视觉是产品分级的关键差异化 | 基座层无视觉·情感层选配·机器人必装
| P0 |
| V2 | 四类视觉硬件分场景部署 | RGB 单目 / 立体双目 / ToF / 结构光·按产品层级和场景选型 | P0 |
| V3 | 情感层旗舰款 VLM 本地部署 | 本地 Moondream2 或 Florence-2·D3 档以上·拍照评价、看图说话本地完成 | P1 |
| V4 | 云端 VLM 优先国产 | 主力 Qwen2.5-VL(阿里)·备选 GPT-4o·豆包视觉
| P0 |
| V5 | 基础视觉能力本地化 | YOLO 物体检测 + MediaPipe 姿态 / 手势·完全本地·延迟 <100ms | P0 |
| V6 | 视觉护栏 5 道关 | 物理快门·输入预过滤·处理本地优先·输出后过滤·家长可观察日志 | P0 |
| V7 | 摄像头默认关闭 | 家长 APP 主动开启才工作·物理快门可选
| P0 |
| V8 | 情绪识别本地化 | FER+ 专用模型·5MB 本地推理·情绪数据不出户 | P0 |
| V9 | 轮式机器人 SLAM 导航 | 立体双目 + IMU·室内厘米级精度·商场/乐园场景必备 | P1 |
| V10 | VLA 用于双足机器人 | 基于 GR00T N1 / OpenVLA / π0 微调·不自研基础模型·跟进开源 | P2 |
| V11 | 视觉协同涌现多设备视觉融合 | 多视角融合·视觉接力·视觉时序协作·跨设备主体识别
| P1 |
| V12 | 视觉 + 雾节点 LLM 路径 | 基座层精灵拍照→雾节点 VLM 处理→回复传回·路径透明 | P1 |
| V13 | 周边道具自身视觉 · 三种类型支持 | OID 光学识别笔(¥50-200)·CMOS 扫描翻译笔(¥349-999)·扩展摄像头模组(¥30-300)
| P0 |
| V14 | 兼容 OID 标准 · 教育市场关键 | 支持松翰 SN9P 系列 / OID2 / OID3 协议·兼容已有点读教材生态
| P1 |
| V15 | 扩展摄像头 · 模块化视觉 | 主机 USB-C / BLE 协议接收外接摄像头·摄像头单独售卖¥99-299·跨玩偶可拆卸
| P1 |
| V16 | 视觉数据来源标注 · 隐私边界 | 每张图片来源(主机/词典笔/扩展摄像头)独立标注·不同来源走不同隐私策略
| P0 |
架构设计已经收敛,但有 18 个产品/工程判断需要拍板,否则下一步无法启动。这些不是技术问题,是需要结合市场、团队、资金做的战略选择。
AIGG 的设计不是凭空发明,而是站在游戏研究、IoT、嵌入式、AI 推理多个领域的成熟工作之上。下面按主题分类列出关键引用。