AR/VR行业兵家必争之地(上)-眼动追踪应用大全
原因:我们都希望未来的头戴式显示设备(HMD)是轻便、美观、舒适的,例如苹果和Facebook公开的专利一种分体式HMD,为是一个头戴显示设备(AR眼镜)和一个计算终端(例如手机),头戴显示设备不具备运算能力,数据计算过程由计算终端完成,AR眼镜和计算终端通过无线传输数据。然而要让HMD实时显示高保真度的内容,这需要较大的无线传输带宽、功耗以及渲染消耗,这违背了我们的初衷。 解决方案和效果:通过结合上述眼动追踪技术,实现注视点图像压缩,极大地降低了传输带宽以及功耗,及看哪里传输哪里的高清图像,类似于注视点渲染。注视点压缩需要实时采集用户注视点数据,将用户视场中心范围图像保持清晰,外围视场的图像进行压缩,将每一帧压缩过后的图像传输至HMD,这几乎将原来所需的带宽降低了三分之二。 高通的《深度数据的异步时间扭曲》专利是通过用户眼睛的姿势数据来生成渲染的帧;谷歌的《集中压缩显示流》专利是压缩用户注视点外围图像;苹果的《基于注视点方向的自适应视频数据预过滤》专利是以不同性能处理用户的注视区域和其他区域。 参考文献: 高通专利:深度数据的异步时间扭曲 No:US2019/0012826 谷歌专利:集中压缩显示流 No:US2019/0019315 & US 10319114 苹果专利:基于注视点方向的自适应视频数据预过滤 No:US2019/0026874 谷歌研究院:集中压缩和传输的策略?https://ai.google/research/pubs/pub46452 2.用于交互控制 背景和原因: 目前AR/VR智能眼镜的交互技术主要有手势识别、语音识别、眼动追踪、脑机接口、控制手柄这几种交互技术,其中眼动追踪是其使用过程中最重要的交互方式之一。对比这几种交互方式,眼动追踪交互方式具有移动选择快、隐私性强、消耗体力少、方便快捷、上手快等无可取代的优势。 王牌特工中智能眼镜眼动追踪GIF图 手势识别交互技术:在艺术创作(绘画、制作3D模型)、办公应用、游戏等应用场景中,手势识别具有不错的体验。但是如果让我们在平常的生活场景中,在公众场合张牙舞爪的操作着全息虚拟界面,这不太现实。我们知道绝大多数人不希望在公共场合引起太多人注意,这不仅违反人类的习惯,而且还会造成个人信息的泄露。 语音识别交互技术:很难想象在等地铁的时候通过语音识别来对计算机输入信息,这不仅可能会泄露个人隐私,还会对他人造成干扰。对于很多性格内向的人,并不喜欢在公众场合大声说话,语音识别的交互方式对这类人群的用户体验并不好; 监听:语音接口总是监听对话,当不需要的时候,只会在稍后被一个特定的触发词明显激活(例如“hi,Siri”激活苹果助手,但应用程序仍然打开); 非个人设备:这些设备不是个人设备,任何其他用户都可以有意或无意地向这些设备发送有效的语音输入。目前的语音交互设备作为一种设备的可用性较低,用户不能随时随地使用语音界面,这在固定的专用语音设备(例如-亚马逊Echo)。此外,最佳语音识别(电信设备)需要用户接近设备。 脑机接口交互技术:脑机接口是未来最有效的人机交互方式,但是目前的人们对大脑的研究是有限且缓慢的,现在非侵入式脑机接口只能检测大脑皮质层的脑电波和人体神经网络的生物电,因此现在脑机接口交互技术不是很成熟,并不能准确地读取人的思维和想法。 所以我认为在未来使用智能眼镜的普通人的通用交互方式为脑机接口技术或眼动追踪交互技术。可以想象,现在AR智能眼镜在眼前显示了虚拟的UI操作界面,通过眼动追踪对UI界面按钮的选择。 但是,目前国内外已有大量针对于眼动追踪交互技术的专利和方案,绝大部分技术方案都是通过注视目标一定时长、双目眨眼、单目眨眼、眼球运动方向(眼球往上看、双面往中心看等)等一系列的眼睛行为与虚拟目标进行交互,交互包括选择确认、点击、翻页滑动、属性弹出。我们团队在2017年初就采购了德国SMI的VR眼动追踪设备,并将VR眼动设备模拟成具有眼动追踪功能的AR智能眼镜,因此我们得以开发眼动追踪交互的应用。测试中我们发现上述的眼睛眨眼、注视一定时长的眼动交互方式让人很不舒服,就好比平时我们用眼睛看东西都是下意识控制的,但是在与电脑系统交互过程中却要将控制眼睛由我的主观意识来控制,这给用户带来了巨大的认知负荷和精力去协调操作界面的交互,时间不久眼睛就很累了。并且眼动交互无法准确地选择过于细小的对象,原因在于眼睛在选择对象的最后关头存在眼颤行为,导致最后眼睛很难选中你注视的目标,因此不能指望通过眼睛来选择细小的对象,也不能驱使眼睛进行高频率的点击行为。最好有交互按钮有磁性功能和眼球的增稳。 Magic leap官网上也有关于使用眼动追踪交互的警告 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |