随着元宇宙应用的发展和内容生态的完善,元宇宙对硬件的需求逐步清晰,将推动 VR/AR/脑机接口设备的逐步升级,最终有望出现可以和 PC、智能手机媲美的下一代硬件。
VR/AR/脑机接口是集合了微显示、传感器、芯片和算法等多项技术在内的下一代人机交互平台。回顾整个人机交互发展历程,我们看到人机交互的指令输入形式和反馈输出形式都在朝着更低的操作门槛和更高的交互效率演变。当前我们正站在智能手机时代和下一个交互形态的交界处,我们认为尽管 VR/AR 在输入技术(传感)和输出技术(显示)方面均较上一代交互设备有显著飞跃,但目前仍处于发展的早期阶段。随着元宇宙应用的发展和内容生态的完善,元宇宙对硬件的需求逐步清晰,将推动 VR/AR/脑机接口设备的逐步升级,最终有望出现可以和 PC、智能手机媲美的下一代硬件。
本期的智能内参,我们推荐华泰证券的报告《人机交互系统是通往元宇宙的入口》,分析VR、AR和脑机接口设备在元宇宙时代的发展趋势。
来源 华泰证券
原标题:
《人机交互系统是通往元宇宙的入口》
作者:黄乐平 等
一、元宇宙场景落地,定义下一代 VR/AR/脑机接口升级方向
随着元宇宙应用场景的清晰化,未来 VR/AR/脑机接口的发展方向逐渐明确。早期的硬件设备受制于应用场景和内容单一化、用户对硬件设备的体验不完善等缺陷,初代VR/AR 并未实现大规模增长。当前时点,我们看到游戏、电商、协同办公、社交、健身、医疗、视频和模拟训练(教育)等元宇宙应用场景正逐渐清晰,这对 VR/AR/脑机接口硬件端提出了更高的需求,有望驱动包括微显示技术、三维重建、生物传感器、肌电/脑电处理、全身追踪、空间定位在内的多项底层技术不断完善。
元宇宙各大应用场景对沉浸感和交互感的要求
元宇宙时代的应用比移动互联网时代更强调沉浸感和交互感,不同应用对两种效果的侧重各有不同。其中,沉浸感可通过更丰富的音画效果和更多维度的感官交互获得,例如借助场景渲染、沉浸声场、温度模拟、触觉传感等技术营造出逼真的虚拟场景,使大脑产生“身临其境”的感觉;交互感则需借助多样化的输入方式来降低人机交互的操作门槛,例如直接通过识别语音或读取手势来传达指令,无需打字或操作键鼠/按钮,增强互动效率。
1、游戏:强调“沉浸感”的元宇宙游戏需要多平台/VRAR/云原生技术作为底层技术支撑
当前游戏已具备元宇宙所拥有的虚拟身份、朋友、经济系统等特点,但未能给玩家完全带来“沉浸感”,硬件方面主要受制于近眼显示和多维感官传感技术不够成熟。未来,元宇宙游戏将朝着更强的沉浸感与更丰富的内容生态方向发展,需要借助成熟的场景渲染和沉浸声场技术增强声画效果,借助全身运动追踪、传感器、空间定位等技术增强临场感。我们认为优质的游戏内容创新将与 VR/AR 硬件升级互相形成正反馈效应,促进元宇宙游戏生态的发展,并为高性能计算芯片、硅基 OLED、Micro LED 以及相关设备组装企业带来增量空间。
元宇宙游戏发展方向及底层技术
2、电商:虚实交融的沉浸式购物模式为近眼显示、AI 芯片、传感器带来发展机遇
传统电商平台仍主要以图片和视频等平面化形式展示商品。尽管近年来电商直播、AR 试妆等形式兴起,一定程度上弥补了传统电商在购物时较为单薄的观感体验,然而对于服饰等SKU 丰富的非标品类商品,用户仍然无法对其进行在线试品。在“在线即在场”的终极需求驱动下,元宇宙时代的电商有望进一步突破物质世界屏障,通过 AR/VR/MR 等新一代人机交互平台实现视听甚至触觉等多感官交互的购物体验,创造如 3D 虚拟商场、数字展馆等消费者购买场景。我们认为这一进程主要依赖于近眼显示、三维重建、触觉传感乃至虚拟人等技术的成熟,将为相关微显示、传感器、芯片企业带来增长空间。
元宇宙电商有望借助 VR/AR/MR 实现“在线即在场”的沉浸式购物体验
3、协同办公/社交:借助手势追踪、语音识别、眼动追踪、虚拟化身实现互动感
未来元宇宙办公/社交有望突破物理空间的局限,将带来最接近实地面对面的工作和交友体 验,提升办公生产、沟通、协作效率。当前移动互联网阶段的远程办公距离理想模式有一定差距,工作效率与沟通效果仍存在局限性。而元宇宙办公/社交则强调互动感,例如,用户可以全程通过手势操作,即可满足在 VR 虚拟空间中举手、竖大拇指点赞等功能,显著降低人机交互平台操作门槛,同时实现无距离感互动。这一场景的实现将主要借助手势读取、眼动追踪、语音识别、空间定位等 VR/AR 底层技术。
4、医疗与健康:VR/AR/脑机硬件将搭载先进生物监测以及脑电信号处理技术
在 VR/AR 方面,尽管目前已出现了拳击、攀岩、球类运动等辅助健身的应用,欠佳的硬件佩戴体验却限制了用户使用时长。一方面,VR 设备的眩晕感仍未完全消除,运动健身应用中高速变换的场景将进一步加剧不适感;另一方面,目前主流 VR 头显的重量大多在 300g以上,VR 一体机甚至普遍超过 500g,大大增加了佩戴者运动时的负担。因此,显示技术和轻薄化是硬件厂商重点攻克的方向,我们看好具有超轻薄、高清晰度、低功耗、低延迟等特点的硅基 OLED(索尼、视涯等),以及具有无感佩戴且不妨碍正常视线优势的入眼式AR 设备(InWith 和 Mojo Vision 等)的发展机会。
在生物监测方面,当前随着心率监测、血氧检测技术的成熟,已有部分智能手环和手表产品中引入了医疗级功能,我们认为向着更专业的医疗设备进化将是智能穿戴重要发展方向。未来,智能穿戴产品有望大规模搭载 ECG 心电图以及无创血糖检测等新功能,针对老年群体、慢病群体提供更专业的服务,这也对血糖、血氧等生物监测技术提出了更高的要求。长期来看,人机交互硬件在医疗与健康领域有望拓展到服务神经系统和肌肉系统瘫痪的患者(如脑、脊髓疾病、中风、外伤等),这一需求将为脑机接口技术创造可观的发展前景。
生物检测与辅助健身场景
5、视频:VR/AR 技术带来高沉浸感的流媒体观赏体验
传统影视作品、长视频与短视频仍主要通过电视、影院、视频平台等媒介传播,受制于平面化的表现形式,内容的表现力仍有较大提升空间。元宇宙时代,观众有望使用先进 VR/AR设备更沉浸地观看电影、现场实况、音乐会等内容,娱乐性与体验感将迎来质的飞跃。目前包括 Netflix 和爱奇艺在内的长视频平台已对“元宇宙+视频”的落地做出了积极探索,例如 Netflix 为美剧《怪奇物语》推出 VR 体验,爱奇艺推出主打观影功能的手机盒子。借鉴移动互联网时代对短视频生态的孵化历程,元宇宙作为互联网的下一站,也为视频创作提供了新的可能性,例如通过建模、动作捕捉、人工智能制作出的虚拟人物能够参演影视剧集,影视与视频内容创作有望迎来新的高光期。
6、模拟训练/教育:将实现虚拟空间中对实体环境的仿真映射
模拟训练是指将现实中的场景复刻到虚拟世界中,应用于军事训练、工业设计、教学训练、安全应急演练等较为复杂或具有高危险系数的领域。工业领域中,制造业企业将在仿真虚拟空间中充分利用各类数据,优化工业生产环节中的设备工艺和作业流程。军事和安全应急领域均有进行模拟演练的需求,未来有望在虚拟场景开展更大规模和更复杂的军事和应急训练,实现节省训练成本、提高安全性的目的,如曼恒科技研发出上海浦东机场的 VR 火灾应急演练系统,使用 VR 和 5G 云渲染技术模拟机场火灾突发事件及机场消防员在危险场景下如何开展消防应急救援,帮助提升机场系统整体应急能力。鉴于模拟训练用途的特殊性,其对沉浸感和交互感的要求相对而言较低,无需依赖高端硬件设备加成,目前已有曼恒科技、壹传诚等企业实现了商业化。
二、AR/VR:下一代人机交互平台
VR 是 Virtual Reality(虚拟现实)的缩写,指计算机图形技术、计算机仿真技术、传感器技术、显示技术等多种科学技术,在多维信息空间上创建一个虚拟信息环境,提供使用者关于视觉、听觉、触觉等感官的模拟,能使用户具有身临其境的沉浸感,具有与环境完善的交互作用能力的一种崭新的人机交互手段。
目前常见的 VR 由头戴式显示设备和手柄组成。其中,头戴式显示设备集成了显示、计算、传感器等设备,通过将人对外界视觉、听觉的封闭,并由左右眼屏幕分别显示左右眼的图像,引导用户产生一种身在虚拟环境中的立体感。而手柄则负责辅助追踪使用者手的位置、提供交互使用的按键,以及简单的触觉震动反馈。
VR 头显经历 VR 盒子、VR 头盔、VR 一体机三阶段,爆款产品持续主导硬件消费市场。 2Q21 全球 VR 产品出货量达 212.6 万台,同比增长 136.4%,其中 Oculus Quest 2 出货量占 75%,持续主导市场。从 2014 年开始,行业销量由爆款产品主导的特点仍然没有变化(2015-2017 年三星 VR 盒子、2016-2018 年 PS VR、2019 年至今 Oculus 一体机)。
VR 历史销量:VR 盒子、VR 头盔、VR 一体机持续迭代
主流 VR 产品比较
2022 年 VR 将迎来一波创新技术潮流, MetaVR 产品迎来升级,苹果推出高端产品。根据digitimes,推测 Meta 下一代 VR 升级产品将于明年推出,将引入 pancake 光学模组和更多传感器,以实现产品轻量化,并升级手势识别、眼动跟踪等功能;而苹果也将在 2022年底推出一款高端 VR 方案,这款高端产品能够会重新定义 VR 这个产品形态。我们预计这款产品将配备 Micro-OLED 显示屏,复合菲涅尔透镜 pancake 方案,全彩影像透视、搭载更多传感器,为消费者带来全新混合现实体验。
Pancake 短焦光学是公认的下一代 VR 升级方向,使 VR 头显更加轻薄。在 Meta 较早的pancake 技术专利中,我们可以看见一个显示组件包括具有四分之一波片和部分反射表面的第一透镜、具有反射偏振器的第二透镜和显示器,实现头显的轻薄化。我们认为,苹果同样在探索使用三个菲涅尔透镜堆叠,形成轻薄透镜组的方案。改进光学透镜后的 VR 产品将实现轻薄化,头显重量或由原来的 500g 降低至 200-300g。
Meta 下一代 VR 产品与苹果 MR 产品将会增加传感器,主要是摄像头的种类与数量。高通在其官网上披露,高通骁龙 XR2 芯片算力最多可支持 7 颗摄像头(2 颗眼动追踪,2 颗混合现实,2 颗头部 6DoF追踪,1 颗其他),并可以此实现 MR 混合现实功能。我们认为 Meta 下一代或充分利用骁龙 XR2 算力,为产品进行功能升级。
苹果或将搭载更多传感器,为各类应用提供丰富数据。根据 digitimes 等杂志 2022 年 1 月中旬的报道,苹果或将搭载与 M1 芯片相似算力高阶处理器和一个负责传感器的低阶处理器,支持 5-8 个外置相机模组,2 个内置眼动追踪相机模组,1-2 个 ToF 摄像头,以实现全彩RGB 影像透视和眼动追踪、手势追踪等功能,实现内容与应用边界的拓展,也为内容生产商提供更多的数据支持。
为 Meta 下一代或沿用 FastLCD 屏幕,与 quest 2 分辨率差别不大,但具有像素级控制的先进背光,可以展示和 OLED 一样的纯黑底色;而苹果或使用高分辨率、高对比度、宽色域、快速响应的 Micro-OLED 显示屏,随之而来的或是高昂的售价,根据Digitimes 等媒体 2022 年 1 月中旬的报道,新一代苹果 MR 产品售价可能达到 1500-3000美元,高于当前 Oculus quest 2 的最低售价 299 美元。
三、AR:产品处于概念期,Micro-LED + 衍射光波导技术突破被寄予厚望
AR(Augmented Reality,增强现实)是促使真实世界信息和虚拟世界信息内容之间综合在一起的较新的技术内容,与 VR 不同的是,AR 能够将真实环境和虚拟物体之间重叠之后,在同一个画面以及空间中同时存在。AR 中的关键技术包括跟踪定位技术、虚拟与现实合并技术、显示技术与交互技术。
目前 AR 眼镜也可以分为一体式和分体式,从出货量看当前一体式为主流。分体式指计算单元或电池等结构与头显分开,如 Nreal 头显支持通过 type-C 接口与智能手机、PC 连接,允许将智能手机中、PC 的内容无缝传输到眼镜中,用户可以在其中查看内容。而一体式AR 产品则将显示器、传感器、计算、人类理解、环境理解等系统集成在一个头显上,提供更便捷体验。根据 IDC,1H21,AR 一体机出货量占比达 70%,仍然为市场主流。
根据 IDC,2020-2021 年 AR 年出货(不含Screenless viewer)在 20-30 万之间,增速波动大。从品牌来看,除 Epson 和微软外,其他较多品牌并没有实现 AR 的持续大规模销售,常常在 1-2 个季度的爆发后销声匿迹,消费端市场上没能出现标杆性的品牌,我们认为 AR 作为一款消费电子产品仍然处于概念期阶段。
长期来看 AR 终端有望替代手机,实现年出货量超过 10 亿台(对比手机出货量超过 13 亿台),但目前来看实现这个目标时日尚早。从应用看,AR 产品仍未出现杀手级的应用场景。从技术角度看,虽然OLED+Birdbath 方案已经比较成熟,但因透光性差等原因,形似墨镜的设计不能支持全环境的使用。而其他微显示系统如 LBS/LCoS/DLP 等搭配光波导的方案仍在探索过程中。
一款合格 AR 眼镜需要怎样的配置?
显示:微显示单元与光机模组决定亮度、对比度、刷新率、分辨率等指标。目前市场上 AR眼镜的近眼显示系统即使用微显示器作为图像源器件,由其产生图像后投射到自由曲面/光波导等光学模组中,再进入人眼。由于 AR 像源产生的图像将与太阳光一起进入人眼,户外若不加墨镜,入眼亮度需超过 2,000nits,甚至达到 5,000nits,才能在各种天气状况下清楚的显示图像。据我们估算,目前一款光波导眼镜的光效率大约为 3-5%,即像源亮度至少要在10 万 nits 左右,才能满足 AR 眼镜的亮度需求。此外,75Hz 以上的刷新率、25°视场下 720P的分辨率、支持局部刷新及低功耗状态下静态图像的维持,是一款 AR 眼镜的及格线。
人、机、环境的有效交互:SLAM+传感器+AI 用于理解环境、理解使用者、实现虚拟信息和现实世界的结合。为了实现虚拟信息和真实场景的叠加,需要实现使用者的空间定位追踪和虚拟物体在真实空间中定位。除此之外,为了将虚拟信息与输入的现实场景无缝结合在一起,增强 AR 使用者的体验,还需要考虑虚拟事物与真实事物之间的遮挡关系以及实现几何一致、模型真实、光照一致和色调一致。从上世纪 80 年代发展到现在,SLAM 传感器、算法、技术框架等持续改进,是实现自我姿态评价以及虚拟图像反馈,构建人与虚拟内容的有效交互的主要手段。
微显示技术: MicroLED 有望成为 AR 主流 。当前已提出的微显示技术包括 OLED(有机发光二极管)/ LCoS(硅基液晶)/ DLP(数字光处理)/LBS(激光束扫描仪)等待,但这些技术均无法兼顾成熟性、性能、成本等指标。MicroLED 是业内公认的 AR 显示最佳解决方案,但存在技术尚不成熟、量产难度大等问题,真正大面积商用可能要到 2025 年左右。
微显示技术一览
LCoS —— 限制较多,逐渐淡出 。LCoS 作为微显示技术存在比较明显的限制,逐渐淡出微显示领域。LCoS 的优势在于技术成熟,成本低廉,像素密度高且功耗低,在早期的 AR 设备中应用较多,如灵犀微光灵犀AR(LCoS+几何光波导),Magic Leap One (LCoS+衍射光波导)。但劣势也相对明显,如对比度较低,特别是在大入射角情况下;由于必须和 PBS 配合使用而限制了整体光机的小型化和轻量化进程(目前较小的 digilens 的 LCoS 光机体积为 2.5 立方厘米);低温状态下无法工作,环境适应性较差等。因此,大量厂商都在积极寻求使用 LBS/DLP 等方案代替 LCoS,2018 年以后搭载 LCoS 的新机型逐渐淡出。
硅基 OLED —— 亮度较低,目前难以应用于户外 AR 场景。硅基 OLED 的缺点也比较明确,应用局限于 VR 及类似设备。目前市场上主流的硅基 OLED产品亮度均小于 3000nits,与 10 万 nits 的要求相去甚远,难以应用于户外 AR 场景。同时,由于产品的生产工艺更加复杂,其价格比 LCoS 贵 50%以上,但使用寿命在高亮度模式下将低于 3000 小时且极有可能出现烧屏的情况,整体性价比更低。因此,虽已有部分 AR 厂商使用硅基 OLED 替代 LCoS,但其仍不是 AR 像源的最佳解决方案。
LBS —— 激光二极管对温度敏感、分辨率较差。与 LCoS 等其他显示技术相比,LBS 技术优势明显。LBS 系统主要由激光、光学器件和MEMS Mirror 组成由于 LBS 使用激光光源进行逐像素渲染,相较其他非激光、逐帧渲染方案天然具有延迟低(激光纳秒 vs 普通光源毫秒)、画面滞留时间短、亮度高、能耗低、色彩丰富的优势。此外,为获得更大的视场角和更高的解析度,其他技术必须增加微镜的数量并放大产品尺寸,而 LBS 方案仅通过改变 MEMS 微镜的振动频率和反转角度即可实现,因而更易实现光机的轻量和小型化。(目前 LBS 光机体积大致在 0.5-1.5 立方厘米)。
当前主流的 LBS 产品分辨率约720P,提高分辨率可能需要较高的成本。AR 硬件/软件企业 Rave 首席科学家 Karl Guttag将搭载 LBS 光机的 HoloLens 2 代和搭载 LCoS 光机的 HoloLens 1 代进行对比测试后发现,虽然 HoloLens 2 的垂直视场角较 1 代提升近一倍(30 度 vs 17.5 度),但其在分辨率、色彩均匀性等方面的表现均更差。此外,HoloLens 2 实拍图色彩饱和度更低,观感模糊,雾度也更大。
DLP —— 对温度敏感,难以小型化。DLP 由于成本高、体积大等缺陷,在 AR 场景中的应用有一定限制。DLP(Digital Light Processing)系统的核心是 TI 专利的 DMD 芯片(Digital Micromirror Device),它由数百万个高反射的铝制独立微型镜片组成,每个镜片通过数量庞大的超小型数字光开关控制角度。这些开关可以接受电子讯号代表的资料字节,然后产生光学字节输出,将输入 DMD 的视频或图形信号转换成高清晰度的、高灰度等级的图像。DLP 由于以镜片为基础,提高了光通效率,因此 DLP 投影系统比所有其他显示系统具有更强的亮度。然而,由于其设计难度大、结构复杂、生产成本高、体积大等劣势,目前在 AR、HUD 等设备中应用并不普及。
MircoLED —— 仍处在早期阶段,较多技术问题需要解决。MicroLED 产品性能绝佳,是业内公认的 AR 显示最佳解决方案。Micro LED 即 LED 微缩技术,通过将传统 LED 阵列化、微缩化后定址巨量转移到电路基板上形成超小间距 LED,可将毫米级别的 LED 长度进一步缩小到微米级(50um 左右,原本 LED 的 1%)。相较其它技术,MicroLED 产品性能在亮度、对比度、工作温度范围、刷新率、分辨率、色域、功耗、延时、体积、寿命等多方面具备较大优势,被期望为下一代主流显示技术的重要路径。
MicroLED 的发展瓶颈在于微米级的像素尺寸和间距给量产和全彩方案所带来的巨大挑战。 MicroLED 的生产包括芯片和背板制造、巨量转移、接合、驱动和检测维修等环节,由于其晶粒尺寸在微米级,生产单个成品即需要处理数百万甚至数千万晶粒,对技术的效率和良率提出了极为严苛的要求,现有技术水平还无法满足其量产需求。而MicroLED 晶粒的发 光效率、波长一致性和良率也尚未达到 MicroLED 彩色化显示的要求。基于此,现有MicroLED 屏幕价格高昂,单片售价即大于 1000 美金。2018 年三星演示的采用 microLED技术的 The Wall 电视,146 寸版报价高于 10 万美元。
光学模组:从几何光学到纳米光学。与 VR 的不同之处在于,AR 眼镜需要透视(see-through),既要看到真实的外部世界,也要看到虚拟信息,所以成像系统不能挡在实现前方,这就需要多加一个或一组光学组合,通过层叠的方式,将虚拟信息和真实场景融为一体,设计包括自由曲面,光波导等。
传统的光学透镜加工方式为切割/注塑/涂层/抛光等等,但随着光波导等光学模组的复杂化,传统加工工艺带来了生产流程复杂、良率低等问题,国内外包括 Digilens,WaveOptics,至格科技,珑璟光电等厂家开始探索纳米压印、紫外光加工等加工方案。
AR 光学模组梳理
光波导技术是应 AR 需求而生的一个比较有特色的光学组件。因它的轻薄与外界光线的高穿透特性而被认为是消费级 AR 眼镜的必选光学方案。
AR 眼镜中光的传输关键在于“全反射”。其实,波导技术并不是新发明,光纤就是波导的一种,只不过传输的是我们看不见的红外波段的光。光机完成成像过程后,波导将光耦合进自己的玻璃基底中,通过“全反射”原理将光传输到眼睛前方再释放出来,就完成了图像的传输。
越是大的视场角,就需要越高折射率的玻璃基底来实现。因此传统玻璃制造商比如康宁和肖特,近年来都在为近眼显示市场研制专门的高折射率并且轻薄的玻璃基底,还在努力不断增大晶元尺寸以降低波导生产的单位成本。
具体来看,当前光波导技术可以分为下面三种:
1) 几何/列阵光波导。该概念和专利一直由以色列公司 Lumus 提出并持续优化迭代,基本原理是耦合光进入波导的一般是一个反射面或者棱镜。在多轮全反射后光到达眼镜前方时,会遇到一个“半透半反”镜面阵列,将光耦合出波导。几何/列阵光波导目前大都只能实现一维扩瞳。这里的“半透半反”镜面阵列相当于将出瞳沿水平方向复制了多份,每一个出瞳都输出相同的图像,这样眼睛在横向移动时都能看到图像,这就是一维扩瞳技术(1D EPE)。
几何/列阵光波导工艺流程复杂,良率提升难度极大。“半透半反”镜面阵列的镀膜工艺中,由于光在传播过程中会越来越少,阵列中这五六个镜面的每一个都需要不同的反射透射比(R/T),以保证整个动眼框范围内的出光量是均匀的。并且由于几何波导传播的光通常是偏振的,每个镜面的镀膜层数可能达到十几甚至几十层。
这些镜面是镀膜后层层摞在一起并用特殊的胶水粘合,然后按照一个角度切割出波导的形状,这个过程中镜面之间的平行度和切割的角度都会影响到成像质量。因此,即使每一步工艺都可以达到高良率,这几十步结合起来的总良率却是一个挑战。每一步工艺的失败都可能导致成像出现瑕疵,常见的有背景黑色条纹、出光亮度不均匀、鬼影等。
2) 浮雕光栅衍射光波导。传统的光学结构被平面的衍射光栅取代,通过材料表面浮雕出来的高峰和低谷,在材料中形成了一个折射率的周期性变化。通过设计光栅的参数(材料折射率、光栅形状、厚度、占空比等)可以将某一衍射级(即某一方向)的衍射效率优化到最高,从而使大部分光在衍射后主要沿这一方向传播。
用衍射光栅可以实现二维扩瞳,digilens 和 WaveOptics 分别具有两种技术方案。 Hololens I, Vuzix Blade, Magic Leap One, Digilens 等使用的方法是,当入射光栅将光耦合入波导后,会进入一个转折光栅的区域,这个区域内的光栅沟壑方向与入射光栅呈一定角度,那么它就像一个镜子一样将 X 方向打来的光反射一下变成沿 Y 方向传播。另外一种实现二维扩瞳的方式是直接使用二维光栅,即光栅在至少两个方向上都有周期,将单向“沟壑”变为柱状阵列。WaveOptics 就是采用的这种结构,从入射光栅耦合进波导的光直接进入一个具有二维柱状阵列发区域,可以同时将光线在 X 和 Y 两个方向实现扩束,并且一边传播一边将一部分光耦合出来进入人眼。
3) 布拉格光栅衍射光波导(也叫全息光栅光波导)。利用光全息术在记录材料薄膜上记录点光源的干涉条纹,再经过处理制成光栅条纹结构的薄膜光学元件,具有光束准直、聚焦、偏转等功能。其对光的衍射符合布拉格定律,只有满足布拉格条件的入射光才会被衍射,不满足布拉格条件的入射光不被衍射。目前在做全息体光栅(VHG)波导方案的厂家比较少,包括十年前就为美国军工做 AR 头盔的 Digilens,曾经出过单色 AR 眼镜的 Sony,还有由于被苹果收购的 Akonia。
优点显著,探索持续进行。这种技术具有体积薄,重量轻,且可同时记录多个全息图等优点,使它能够替代许多传统的光学元件,如棱镜、立方体分束器和光栅等,进一步减小 AR 头戴式显示器体积。由于体光栅由于受到可利用材料的限制,能够实现的折射率差有限,导致它目前在 FOV、光效率、清晰度等方面都还未达到与表面浮雕光栅同等的水平。但是由于它在设计壁垒、工艺难度和制造成本上都有一定优势,业内对这个方向的探索从未停歇。
SLAM:理解环境与使用者,实现虚拟信息和现实世界的结合。SLAM(Simulataneous Localization and Mapping),同步定位与地图构建,指在运动过程中通过重复观测到的环境特征定位自身位置和姿态,再根据自身位置构建周围环境的增量式地图,从而达到同时定位和地图构建的目的。
现代流行的 SLAM 系统大概可以分为前端和后端。前端通过传感器实现数据关联,研究帧与帧之间变换关系,主要完成实时的位姿跟踪,对输入的图像进行处理,计算姿态变化。后端主要对前端的输出结果进行优化,得到最优的位姿估计和地图。
SLAM 在 ARVR 中有较多应用,AR 中主要是 1)现实物体与虚拟物体的有效交互,2)实 现语义理解,优化智能辅助功能:
实现虚拟世界和现实世界之间坐标叠加、实现几何物理信息交互。与电脑、平板、手机的3D 显示不同,AR 更注重虚拟信息与真实信息的无缝融合,即图像出现的平面位置与景深准确、带来沉浸感的良好体验。这就需要利用 SLAM 算法,准确叠加虚拟坐标系和真实坐标系。同时,真实环境中有高低起伏、有障碍物、有遮挡关系,AR 可以让虚拟信息跟这些真实环境中的物理信息进行交互。
随着机器学习和深度学习的发展,虚拟信息可以“理解”真实世界,让二者的融合更趋于自然。当前计算机已经可以已经可以认出图片上的内容,但没有理解内容之间的关系,当前的一项研究方向是,应用 SLAM+AI 技术,通过特征提取,实现机器的语义理解,优化 AR 系统的辅助功能。
传感器:交互方式与应用场景升级推动传感器升级。AR 中交互方式的升级,带来更多样信息需求。随着人机交互由 2D 走向 3D,交互方式逐渐多样化,向人类本能发展,手势交互、姿势交互、眼动交互、语音交互,甚至结合生物信号、周围环境交互的方式不断进化,这对更多种类的信息提出了要求,用户运动类、生物类信息,以及其他环境信息都将为人机交互提供底层支持。
大量信息需求为运动类、生物类、环境类各型传感器提供增量机会。当前苹果手机、手表广泛运用多种运动、生物型传感器,与之对比,VR 爆款产品 Oculus quest 2 头显仅搭载了4 颗黑白摄像头,手柄配备了两组陀螺仪加速度计传感器。未来,为实现更深度沉浸和更便捷交互,测距摄像头、眼动追踪摄像头、精细化压力传感器,甚至生物型、环境型传感器,都将逐渐配备。
三、脑机接口:离现实还有多远?
对于大多数人来说,最早接触脑机接口概念是从科幻电影中。不管是《X-战警》中博士的意念控物,还是《黑客帝国》中锡安人通过接口与电脑相连,迅速学会各种各样的知识和技能,并进入 Matrix 的虚拟世界中,再或是《沙丘》中人们通过脑科学的探索,不断开发大脑潜能,通过训练的领航员的大脑能够媲美大型计算机,这些情节都让人印象深刻,也是科学家不断探索的方向。
使用电子计算机对人脑进行模拟需要 172PFlops 计算量。人的大脑有接近 860 亿个神经元,每个神经元有 1 万个连接点,掌管人类运动、听觉、语言、嗅觉、记忆、思考、性格、情绪等功能。根据我们估算,如果想要以计算机来模拟人脑的活动需要 172PFlops(对应神威太湖之光 93PFlops,美国 Summit 超算 122.3PFlops)。人脑的潜能或能够达到一台超级计算机的运算能力。
脑机接口或支持人脑潜力持续开发。马斯克提出的一个经典论述是“人类不能被 AI 淘汰,要与 AI 融合,在大脑和电脑之间创建一个接口”。随着我们对脑科学的不断认识和脑机接口技术下对人类肢体限制的不断突破,人脑的潜能或得到释放。
被称作“脑机接口之父”的尼可莱利斯教授在其《脑机穿越》一书中提到,在脑机接口的帮助下,思想或能转化为有形的动作、印象或情感,人可以用思想操控电脑、驾驶汽车、与他人进行交流,可以完美的转化为纳米工具的精细化操作,或者是应用了尖端科技的机器人的复杂动作。不用动手输入一个字,也不用动口说一个词就可以与人进行交流,即使足不出户,也能体验到触摸遥远星球表面的感觉。
脑机接口(Brain Computer Interface,BCI)1976 年由加州大学洛杉矶分校的雅克·维达尔(Jacques J. Vidal)提出。一个完整的脑机接口过程包括信号采集、信息解码处理、信号 输出/执行、反馈四个步骤实现。 脑机接口可以通过电、磁、光、声进行信号采集与反馈,而脑电技术是目前主流探索方向。 事实上采集中枢神经信号以监测大脑活动的方法有很多种,包括脑电、功能近红外光谱(functional near-infrared spectroscopy, fNIRS)、功能磁共振成像(functional magneticresonance imaging, fMRI)等,反馈技术也同样包括电、磁、声、光多种。在这些监测技术中,脑电因为时间分辨率高、设备价格低廉且便携等优点,逐渐成为脑机接口研究最主流的探索方向。
1) 脑电采集:脑电采集是 BCI 的关键步骤,采集的效果、信号强弱、稳定性及带宽大小直接决定后续的处理及输出。由于大脑的中枢神经元膜电位的变化会产生锋电位(spikes),或动作电位(action potentials),并且神经细胞突触间传递的离子移动会形成场电位(field potentials),通过在大脑皮质的运动神经位置外接或植入微型电极,可以采集并放大这些神经生理信号。
2) 信号解码处理:信号处理是将转化为电信号的大脑活动,去除干扰电波以及其他信号,并将目标分类并处理,转化为可以执行输出的对应信号。
3) 信号输出及执行:信号输出指将收集并处理后的脑电波信号传输至已连接的设备器材,作为数据基础加工内容,或反馈到终端机器以形成指令,甚至实现直接交互。
4) 反馈:在信号执行后,设备将产生动作或显示内容,参与者将通过视觉、触觉或听觉感受到第一步产生的脑电波已被执行,并触发反馈信号。
根据脑电的采集方式,当前的脑机接口又可以分为侵入式、非侵入式 非侵入式更多用于消费端的脑电监测。非侵入式是在人/动物大脑外部佩戴脑机接口设备,通过采集脑电、神经电获取脑部信息,但信息精度及分辨率较低,可用于简单的信号判断与反馈,但较难传达复杂指令,如帮助肢体残障人士通过意念操控机械骨骼,或用于 VR/AR游戏应用的基础手势控制。非侵入式根据收集信息的不同可以分为 EEG(收集脑电)和MEG(收集磁场)两种。
1)EEG:通过导电凝胶将 Ag/AgCI 电极固定在头皮上,以测量头皮脑电信号,但一般只能监测到 0-50Hz 相对较窄频带中的信息。
2)MEG:通过测量细胞内离子电流引起的小磁场获得信号,但由于高昂的成本和操作方法的繁琐(电磁封锁环境,保持绝对静止),MEG 并不是一个理想的解决方案。
侵入式脑机接口主要应用于医疗康复领域。侵入式将设备直接植入到人/动物大脑灰质或颅腔内,能够获取相对高频、准确的神经信号,不仅能够通过读取脑电信号来控制外部设备,还能够通过精确的电流刺激让大脑产生特定感觉。侵入式脑机接口可以分为 ECoG、LFP、SUA 等类型。
1) ECoG:测量大脑皮层电位,与 EEG 技术相似,但能够监测到更大带宽的信息;
2) LFP、SUA:测量大脑皮层场电位与锋电位,可以通过 Mircowire array,Michigan array,Utah array,Neurotrophic electrode 等多种传感器实现。
侵入式采取电信号的方法,具有较高的空间分辨率、良好的信噪比和更宽的频带,但目前仍然面临着有创带来的安全问题、难以获得长期稳定的记录、需要医护人员长时间连续的观察等问题,目前应用仍局限于医疗康复领域。
侵入式工具也出现了全新不开颅植入方案。2021 年 8 月,来自美国加州伯克利大学的Synchron 公司开发的微创脑机接口获得美国食品药品监督管理局(FDA)的人体临床试验批文。其脑机装置微小,可以安全地穿过血管,因此直接利用颈静脉植入 BCI,使用导管手术将设备输送到大脑和脊柱中,在两小时无需开颅手术内即可将设备植入了患者大脑内。
由于不需要开颅手术,因此这种传感器可以灵活布置在大脑多个位置,从而捕捉各种类型的信号。与传感器相连的 BrainPort 接收装置植入病人的胸口,它没有内置电池,而是通过无线的方式进行供电以及数据传输,进一步提升了安全性。通过 Synchron 研发的 BrainOS操作系统,可以将传感器读取到的信号转化为与外界交互的通用信号,从而实现用大脑与外界交流沟通。
医疗、消费市场应用的持续拓展或支撑起千亿市场规模。随着人们对大脑的认知、电极设计、和人工智能算法的精进,脑机接口领域应用也持续拓展,并向更加精细化发展。脑机接口相关的研发已经在仿生学、医疗诊断与干预、消费电子等多个领域进行持续探索,我们认为相关产品可能将在未来 20-30 年内陆续商业化,支撑起近千亿美元的市场规模。
二十世纪七十年代到九十年代末,脑机接口技术经历了从概念期到科学论证期的发展。二十世纪七十年代至八十年代,“脑机接口”专业术语出现,1977 年 Jacques J. Vidal 开发了基于视觉事件相关电位的脑机接口系统,通过注视同一视觉刺激的不同位置实现了对 4 种控制指令的选择。1980 年德国学者提出了基于皮层慢电位的脑机接口系统。
二十世纪八十年代后,少数先驱研发了实时且可执行的脑机接口系统,并定义了至今仍在使用的几种范式:
1) 1988 年 L.A. Farewell 和 E.Donchin 提出了著名且广泛使用的脑机接口范式 P300 拼写器,表明系统有望帮助严重瘫痪患者与环境进行通信和交互。不久后研究人员都开发出基于感觉运动节律的脑机接口系统,该系统可以控制一维光标向使用者反馈运动节律幅度,从而通过训练实现通过想象控制小球向上或向下移动。
2) 1990 年左右 Gert Pfurtscheller 开发出另一种基于感觉运动节律的脑机接口,用户必须明确地想象左手或右手运动,并通过机器学习将其转化为计算机命令,这定义了基于运动想象的脑机接口。
3) 1992 年 Erich E. Sutter 提出了一种高效的基于视觉诱发电位的脑机接口系统,在该系统中设计了 8×8 拼写器,利用从视觉皮层采集的视觉诱发电位识别用户眼睛注视方向来确定他选择拼写器中的哪一个符号。肌萎缩侧索硬化症患者可以实现 10 个单词/分钟的通信速度。
二十一世纪以来脑机接口技术高速成长,新范式、新算法、新设备层出不穷,早期范式性 能明显提高。新型脑机接口实验范式相继涌现,如听觉脑机接口、言语脑机接口、情感脑机接口以及混合脑机接口。先进的脑电信号处理和机器学习算法被应用于脑机接口,如空间模式算法、xDAWN 算法等,新型的脑信号获取方法如功能核磁共振成像测量的血氧水平依赖信号以及功能近红外光谱测量的皮层组织血红蛋白浓度等被用于构建非侵入式脑机接口。除此之外,早期开发的基于 P300 和视觉诱发电位的脑机接口性能得到了明显提高,并在初步的临床试验中证明适用于肌萎缩侧索硬化症、脑卒中以及脊髓损伤患者。
应用场景1:医疗健康领域是脑机接口当前最接近商业化的领域。脑机接口可以帮助实时监控和测量神经系统状态,辅助临床判读。“监测”型脑机接口应用方向十分多样,包括评测陷入深度昏迷患者的意识等级,测量视/听觉障碍患者神经通路状态协助医生定位病因等等。除此之外,通过结合脑电、视频等多元信息进行诊
监测到的脑电信息可以用于加工、反馈,针对多动症、中风、抑郁症等做对应的恢复训练。 例如,对于运动皮层相关部位受损的中风病人,脑机接口可以从受损的皮层区采集信号,然后刺激失能肌肉或控制矫形器,改善手臂运动;运动想象类脑机接口可以用于孤独症儿童的康复训练,提升他们对于感觉运动皮层激活程度的自我控制能力,从而改善孤独症的症状,也可以通过脑电信号的反馈,训练使用者的专注力。疗,能够辅助医生判读脑损伤、脑发育等多种临床适应症。
基于电、声、光、磁刺激进行神经调控的脑机接口已经实现商业化。相关应用包括:通过电刺激治疗进行神经康复,主要针对脑卒中、 帕金森等中枢神经或周围神经损伤所致的运动功能障碍,如偏瘫、肌萎缩、肌力低下、步行障碍、手功能障碍;通过颅磁刺激治疗抑郁症,以及对脑卒中所致的言语功能障碍、吞咽障碍、认知功能障碍进行治疗。经颅磁刺激用于抑郁症治疗已在美国、加拿大、新西兰、以色列等国家明确获批,与药物治疗相比,经颅磁刺激具有副作用小、安全性高、无痛苦、不易成瘾、不会影响认知功能等优势。国内外多家公司包括伟思医疗(688580 CH,未覆盖),Neuronetics(STIM US,未覆盖),Brainsway(BWAY US,未覆盖)等公司已经推出相关产品。
BrainCo 强脑科技在 2019 年推出世界上第一款可以意识控制每一根手指的非侵入式智能仿生手后,在今年再次推出一款适合不同伤残等级的仿生腿产品。根据公司介绍,这款产品每秒可提取 2 万个肌电神经电数据,因此能快速、准确地识别用户意图,并根据环境、肌肉情况调整步态防止摔倒,实现高仿生体验,还能够支持攀岩、涉水等多种复杂操作,为残障人士创造高品质生活,拓展了脑机接口技术在义肢方向的应用。
应用场景2:消费电子与 AIoT 领域展开消费端应用。脑机接口技术可以与消费产品相结合,提供更直觉交互体验。早在 2014 年,加难道公司Thalmic Labs 就推出了一款臂带式控制器 Myo,通过感知肌肉的生物电活动,可以让使用者只需要动动手指就可以无线控制身边的计算机和其他数字产品。随着技术的持续升级,当前臂带式控制器可以实现通过识别活动意念带来的电流进行控制,意念打字、意念操作玩具等已经不是幻想。
在脑机接口的支持下,游戏玩家可以用意念来控制 VR 界面的菜单导航和选项控制,获得了独立于传统游戏控制方式之外的新的操作体验;同时人们也可以用意念控制开关等,甚至控制家庭服务机器人,实现全新意义上的智能家居。
渗透率或随 AR 及其他可穿戴产品普及持续提升。当前更加简单形式的控制,比如眼动追踪摄像头、触摸控制等或限制脑机接口交互需求。我们认为未来随着一系列可穿戴设备比如 AR 眼镜的普及,以及元宇宙的持续建设,基于脑机接口技术的消费电子产品渗透率将持续提升。
应用场景3:实现大脑强化,运用于国防军事领域 2020 年美国兰德公司发布了一份名为《脑机接口:美国军事应用和意义的初步评估》(Brain-Computer Interfaces: U.S. Military Applications and Implications)的报告,指出虽然存在一定风险,“脑机接口”很可能在改进未来作战中提供相应的支持,脑机接口在军事 领域用途包括保证更高效和保密的军事通信、提高决策速度与准确性,允许操作员同时控 制多个平台等。
进行更高效和更保密的军事通信。2019 年,DARPA(美国国防部高级研究计划局)就选择了6个团队来开发N3神经技术研究计划,旨在为美国军方提供高精度的双向脑机接口系统,使服役人员能够与计算机系统进行通信。未来若脑机接口用于军事通信的技术获得成功,将颠覆现有通信技术的运转模式。此前的通信解密都是在得到对方通信信号的基础上,依据共同、公开的技术知识进行解密。理论上只要有足够的时间,任何加密算法都可以被破译。而脑机接口通信可能在双方的主体意识尚未明确时就已经完成;所以,不仅通信信号难以得到,即使得到信号,也缺乏解密所需的技术知识。
脑机接口或用于处理大量数据来提高决策效率。未来作战中,智能设备、士兵穿戴式传感器和无人机可向士兵提供大量的行动数据,大量的信息融合将增加决策的复杂性。通过脑机接口能够使得机器与人之间连通性增强,促进数据在作战人员和决策者之间快速而广泛地流动,使得相互连接的军事系统能够顺利运行。同时人工智能工具可能融入决策流程,帮助人类作战人员评估环境,管理数据,并最终消化更大容量的信息。
全球主要脑机接口公司