MediaPipe Holistic谷歌面部,手部与姿势预测

在移动设备上实时,同时感知人的姿势,面部标志和手部跟踪可以启用各种有影响力的应用程序,例如健身和运动分析,手势控制和手语识别,增强现实效果等等。MediaPipe是专门为利用加速推理(例如GPU或CPU)的复杂感知管道而设计的开源框架,已经为这些任务提供了快速,准确而又独立的解决方案。将所有这些实时地组合成一个语义上一致的端到端解决方案是一个独特的难题,需要同时推理多个相关的神经网络。

今天,我们很高兴宣布推出,它是针对这一挑战的解决方案,它提供了一种新颖的,最新的人体姿势拓扑结构,可以解锁新颖的用例。MediaPipe Holistic由新的流水线组成,这些流水线具有经过优化的姿势,和组件,每个组件均实时运行,其推理后端之间的内存传输最少,并增加了对这三个组件的互换性的支持,具体取决于质量/速度的权衡。当包括所有三个组件时,MediaPipe Holistic为突破性的540多个关键点(33个姿势,每手21个和468个面部标志)提供了统一的拓扑,并在移动设备上实现了近乎实时的性能。MediaPipe整体作为一部分发布,并且可在设备上用于移动设备(Android,iOS)和台式机。我们还将介绍MediaPipe的新的现成的研究API()和Web(),以简化对该技术的访问。

管道和质量MediaPipe Holistic管道集成了用于姿势,面部和手部组件的单独模型,每种模型都针对其特定领域进行了优化。但是,由于它们的专业不同,因此对一个组件的输入不适合其他组件。例如,姿势估计模型采用较低的固定分辨率视频帧(256×256)作为输入。但是,如果要从该图像中裁剪出手部和面部区域以传递到其各自的模型,则图像分辨率将太低而无法进行精确的关节运动。因此,我们将MediaPipe Holistic设计为多阶段流水线,它使用适合区域的图像分辨率来处理不同区域。

首先,MediaPipe Holistic使用BlazePose的姿势检测器和随后的关键点模型来估算人姿势。然后,使用推断的姿势关键点,为每只手(2x)和脸部得出三个感兴趣的区域(ROI)作物,并采用重新裁剪模型来提高ROI(详细信息如下)。然后,管道将全分辨率输入帧裁剪为这些ROI,并应用特定于任务的面部和模型来估计其相应的关键点。最后,将所有关键点与姿势模型的那些关键点合并以产生完整的540多个关键点。

为了简化ROI的识别,一种类似于独立面部和的跟踪方法利用管道。该方法假定对象在帧之间没有显着移动,使用对前一帧的估计作为对当前帧中对象区域的指导。但是,在快速移动期间,跟踪器可能会丢失目标,这需要检测器将其重新定位在图像中。MediaPipe Holistic使用姿势预测(在每个帧上)作为附加的ROI,以减少对快速移动做出反应时管道的响应时间。这还可以通过防止框架中一个人的左右手或身体部位与另一个人的混合而使模型在整个身体及其部位之间保持语义一致性。

另外,姿势模型的输入帧的分辨率足够低,以致于脸部和手部的最终ROI仍然不够准确,无法指导那些区域的重新裁剪,这需要精确的输入裁剪来保持轻巧。为了弥补这一精度差距,我们使用了轻巧的面部和手部裁剪模型,这些模型扮演了空间变形器的角色,并且仅花费了相应模型推理时间的10%左右。

MediaPipe Holistic每帧最多需要8个模型之间的协调-1个姿势检测器,1个姿势界标模型,3个重新修剪模型和3个用于手和脸的关键点模型。在构建此解决方案时,我们不仅优化了机器学习模型,还优化了预处理和后处理算法(例如,仿射变换),由于流水线的复杂性,这在大多数设备上花费了大量时间。在这种情况下,根据设备的不同,将所有预处理计算移至GPU可以使整体管线速度提高约1.5倍。结果,MediaPipe Holistic即使在中间层设备和浏览器中也能以接近实时的性能运行。

流水线的多阶段性质提供了另外两个性能优势。由于模型大多是独立的,因此可以根据性能和精度要求用较轻或较重的版本(或完全关闭)替换它们。而且,一旦推断出姿势,就可以精确地知道手和脸是否在框架范围内,从而允许光线跳过对那些身体部位的推断。

应用程序MediaPipe Holistic具有540多个关键点,旨在实现整体,同时感知肢体语言,手势和面部表情。它的混合方法支持远程手势界面以及全身增强现实,运动分析和手语识别。为了演示MediaPipe Holistic的质量和性能,我们构建了一个简单的远程控制界面,并在浏览器中本地运行并实现了引人注目的用户交互,无需鼠标或键盘。用户可以操纵屏幕上的对象,坐在沙发上用虚拟键盘打字,并指向或触摸特定的面部区域(例如,使相机静音或关闭相机)。在其下方,它依赖于精确的手部检测,随后的手势识别被映射到锚定在用户肩膀上的”触控板”空间,从而可以实现长达4米的远程控制。

当其他人机交互方式不方便时,这种用于手势控制的技术可以解锁各种新颖的用例。并用它来原型化您自己的想法。

MediaPipe用于研究和Web为了加速ML研究及其在Web开发人员社区中的采用,MediaPipe现在提供了可使用的,可自定义的ML解决方案,使用Python和JavaScript。我们从以前的出版物中开始:Face Mesh,Hands和Pose,包括MediaPipe Holistic,还有很多其他出版物。直接在网络浏览器中尝试使用它们:对于使用Python的Google Colab上的MediaPipe中的笔记本,以及对于JavaScript和您在CodePen上的MediaPipe中使用自己的网络摄像头输入!

https://m.toutiao.com/is/iLjn9d26/ 人工智能研究所: 视频动画详解Transformer模型–Attention is all you need.