MediaPipe虹膜检测:实时虹膜跟踪和深度估计

包括计算摄影(例如,人像模式和闪光反射)和增强现实效果(例如,虚拟化身)在内的大量实际应用都依赖于通过跟踪虹膜来估计眼睛位置。一旦获得了准确的光圈跟踪,我们就可以确定从相机到用户的公制距离,而无需使用专用的深度传感器。反过来,这可以改善各种用例,从计算摄影到适当大小的眼镜和帽子的虚拟试戴,到根据视听者的距离采用字体大小的可用性增强。

由于有限的计算资源,可变的光照条件以及遮挡物(例如头发或人斜视)的存在,虹膜跟踪是在移动设备上解决的一项艰巨任务。通常,会使用复杂的专用硬件,从而限制了可在其中应用该解决方案的设备范围。

FaceMesh可以用来驱动虚拟化身(中间)。通过额外使用虹膜跟踪(右),可显着提高化身的活泼性。

MediaPipe Iris启用的眼睛重新着色的示例

Google发布MediaPipe Iris,这是一种用于精确虹膜估计的新机器学习模型。基于Google在MediaPipe Face Mesh上的工作,该模型能够使用单个RGB摄像机实时跟踪涉及虹膜,瞳孔和眼睛轮廓的界标,而无需专用硬件。通过使用虹膜界标,该模型还可以在不使用深度传感器的情况下确定相对误差小于10%的对象和相机之间的度量距离。请注意,虹膜跟踪不会推断人们正在看的位置,也不会提供任何形式的身份识别。由于该系统是在MediaPipe中实现的事实这是一个开放源代码的跨平台框架,供研究人员和开发人员构建世界一流的ML解决方案和应用程序,它可以在大多数现代手机,台式机,笔记本电脑甚至网络上运行。

适用于有远见的个人的可用性原型:观察到的字体大小保持恒定,而与设备到用户的距离无关。

用于虹膜跟踪的ML管道管道的

第一步是利用我们之前在3D Face Meshes上所做的工作,该工作使用高保真面部界标来生成近似面部几何形状的网格。从该网格中,我们分离出原始图像中的眼睛区域,以用于虹膜跟踪模型。然后将问题分为两部分:眼睛轮廓估计和虹膜位置。我们设计了一个多任务模型,该模型由一个统一的编码器组成,每个任务都有一个单独的组件,这使我们可以使用特定于任务的训练数据。

为了从裁剪后的眼睛区域训练模型,我们手动注释了约50k图像,这些图像代表了来自不同地理区域的各种照明条件和头部姿势,如下所示。

眼睛区域以眼睑(红色)和虹膜(蓝色)轮廓标注。

裁剪的眼睛区域构成了模型的输入,该模型通过单独的组件预测地标

虹膜深度:从单个图像进行深度估计

我们的虹膜跟踪模型能够以不到10%的误差确定对象到相机的度量距离,而无需任何专门的硬件。这是通过依靠一个事实,即对人眼的水平直径虹膜保持在跨宽人口[11.7±0.5毫米大致恒定完成1,2,3,4 ],用一些简单的几何参数一起。为了说明起见,请考虑将针孔相机模型投影到正方形像素的传感器上。可以通过使用相机的焦距从面部标志物估计到对象的距离,该焦距可以使用相机捕获API或直接从相机的API获取。捕获图像的EXIF元数据以及其他相机固有参数。给定焦距,从被摄物体到相机的距离与被摄物体眼睛的物理尺寸成正比,如下图所示。

可以使用相似的三角形根据焦距(f)和虹膜的大小来计算被摄体的距离(d)。

左: MediaPipe虹膜仅在不使用深度传感器的情况下就可以预测像素2上距虹膜跟踪的距离,以厘米为单位。右:地面真实深度。

为了量化该方法的准确性,我们通过收集200多个参与者的前置同步视频和深度图像,将其与iPhone 11上的深度传感器进行了比较。我们使用激光测距设备通过实验验证了iPhone 11深度传感器的误差在2米以内的误差小于2%。我们的评估表明,我们使用虹膜尺寸进行深度估计的方法的平均相对误差为4.3%,标准偏差为2.4%。我们对有或没有眼镜的参与者(不计入参与者的隐形眼镜)测试了我们的方法,发现眼镜将平均相对误差略微提高到4.8%(标准偏差为3.1%)。我们没有测试参与者这种做法与任何眼部疾病(如老年环或血管翳)。考虑到MediaPipe Iris不需要专门的硬件,这些结果表明,可以在成本范围很广的设备上从单个图像获取度量深度。

估计误差的直方图(左)和通过虹膜进行的实际距离与估计距离的比较(右)。

MediaPipe Iris

将虹膜和深度估计模型作为跨平台的MediaPipe管道发布,该模型可以在台式机,移动设备和Web上运行。如我们最近在网络上MediaPipe上的Google Developer Blog帖子所述,我们利用WebAssembly和XNNPACK在浏览器中本地运行Iris ML管道,而无需将任何数据发送到云。

使用MediaPipe的WASM堆栈,您可以在浏览器中本地运行模型!左:虹膜跟踪。右:仅从具有EXIF数据的照片中计算出的虹膜深度。虹膜跟踪,可以尝试出在这里和虹膜深度测量这里。

https://m.toutiao.com/is/iLjn9d26/ 人工智能研究所: 视频动画详解Transformer模型–Attention is all you need.