导读:索尼研发的VR手柄克服了这一局限性,较精准地再现用户每个手指的动作。
近日,索尼研究人员研发一款VR手柄,可以较精准地跟踪玩家手指的动作。据传,这一技术或将用于索尼下一代PS游戏机。
VR提供一种沉浸式体验,手势的自然交互对于用户的体验十分重要,现有的VR手柄在这一点上还有缺陷。比如,Facebook旗下VR手柄产品Oculus Touch只在食指和中指部位设置触发器,能够感知到的手部动作较少。
索尼研发的VR手柄克服了这一局限性,较精准地再现用户每个手指的动作。
这项研究发表在美国计算机协会(ACM)官网上,论文题目为《接近传感器手持设备手势估计的机器学习技术评价(Evaluation of Machine Learning Techniques for Hand Pose Estimation on Handheld Device with Proximity Sensor)》。
论文链接:
https://dl.acm.org/doi/fullHtml/10.1145/3313831.3376712#BibPLXBIB0032
一、传感器+神经网络:检测、预测两手抓
据了解,现有的手指动作追踪技术主要依靠两种硬件来实现:能捕捉手指运动的摄像头和电容式接近传感器。
前者受到物理控制器的限制,Oculus Touch就属于这一类。后者能实现更精确的动作识别,但是技术还不成熟。
索尼研究人员设想,可以结合电容式传感器和神经网络来实现更精准的手势追踪。
用手柄上的电容式传感器检测出用户手势变化,用神经网络模型预测出用户手指在三维空间的运动情况。为了设计出最佳方案,研究人员计划选用两种不同的神经网络。
二、用62个传感器制作VR手柄原型
基于上述设想,索尼研究人员设计出VR手柄原型。
首先,研究人员在手柄握把部分安装62个电容式接近传感器,使传感器尽可能多地覆盖手柄曲面和顶面。传感器尺寸为10mm*8mm,输入电流频率为87.5kHz。
然后,研究人员为神经网络模型建立训练集。
为VR手柄原型建立CV模型,将其置于一个UV空间中。选择12位手形不同的人(男性8人,女性4人)作为参与者,用动作捕捉系统OptiTrack以60帧率捕捉参与者动作。每个参与者用右手做出11套不同手势。每个动作重复4次,前3次用于训练,第四次用于验证。
准备好的训练集包含344015帧图像,验证集包含111165帧图像。
接下来,研究人员基于卷积神经网络(CNN)ResNet-18来构建直接回归网络(Direct Regression Network),基于2.5D热图回归架构(2.5D heatmap regression architecture)构建热图检测网络(Heatmap Detection Network)。
用动量为0.9的随机梯度下降优化器来训练这两个神经网络。神经网络模型储存误差最小的模型。直接回归网络的初始学习率为0.03,热图检测网络的初始学习率为0.01。
三、模型精度较高:能抓起小物体,还能进行交流
研究人员用验证数据集评估了两个神经网络模型的性能。结果显示,直接回归神经网络模型更精确地预测了手部动作。直接回归神经网络模型平均绝对误差(MAE)更小,为11.02mm。
研究人员还对比了手势追踪模型与其他模型的性能。2018年,Le等研究者设计出一款基于电容传感器的手柄,平均绝对误差为15.2mm。相比之下,索尼的解决方案精度更高。
另外,研究人员用英特尔酷睿i7-6950X 3.0GHz CPU和NVIDIA GTX1080 GPU成功演示了手势追踪模型,演示场景包括操纵小物体和用手指进行非语言交流。
结语:将继续提升精度
索尼研究人员结合电容式接近传感器和神经网络,设计出一款精度较高的VR手柄,或能提升VR游戏的用户体验。
除此以外,研究人员认为这个模型还可以用于游戏之外的领域,比如非语言交流应用。
研究人员下一步计划继续提升模型精度,使其能够反映更多用户手掌的特征,比如手指长度。
文章来源:TechXplore,ACM