利用深度学习进行Web浏览器视频电话会议中的背景更换

视频会议在人们的工作和个人生活中变得越来越重要。通过增强隐私或有趣的视觉效果来改善体验,可以帮助会议者将重点放在会议本身上。为了实现这一目标,Google最近宣布了在Google Meet中模糊和替换背景的方法,该方法使用机器学习(ML)来更好地突出显示参与者,而不管他们周围的环境如何。其他解决方案需要安装其他软件,而Meet的功能则由MediaPipe内置的尖端Web ML技术提供支持可以直接在您的浏览器中运行-无需其他步骤。开发这些功能的一个主要目标是在几乎所有现代设备上提供实时的浏览器内性能,这是通过结合高效的设备上ML模型,基于WebGL的渲染以及通过XNNPACK和基于Web的ML推理来实现的。

背景模糊和背景替换,由Web上的MediaPipe驱动

Google的Web ML解决方案概述

Meet的新功能是通过MediaPipe开发的,MediaPipe是Google的开源框架,用于跨平台可定制的ML解决方案,适用于实时和流媒体,它还支持ML解决方案,例如设备上的实时手部,虹膜和身体姿势追踪。

任何设备上解决方案的核心需求是实现高性能。为此,MediaPipe的Web管道利用了WebAssembly,这是一种专为Web浏览器设计的低级二进制代码格式,可提高执行繁重计算任务的速度。在运行时,浏览器将WebAssembly指令转换为本机代码,其执行速度比传统的JavaScript代码快得多。此外,Chrome 84最近推出了对WebAssembly SIMD的支持,该组件可在每条指令中处理多个数据点,从而使性能提高了2倍以上。

Google的解决方案首先通过使用ML推理来计算低分辨率蒙版,通过从背景中分割用户(在后面的文章中有更多关于分割模型的信息)来对每个视频帧进行处理。可选地,Google进一步优化遮罩以使其与图像边界对齐。然后,使用遮罩渲染通过WebGL2输出的视频,并模糊或替换背景。

WebML管道:所有繁重的计算操作均在C ++ / OpenGL中实现,并通过WebAssembly在浏览器中运行。

在当前版本中,模型推断在客户端的CPU上执行,以实现低功耗和最大的设备覆盖范围。为了实现实时性能,Google设计了高效的ML模型,并通过XNNPACK库加速了推理,而XNNPACK库是专门为新颖的WebAssembly SIMD规范设计的第一个推理引擎。在XNNPACK和SIMD的加速下,细分模型可以在Web上实时运行。

通过MediaPipe的灵活配置,背景模糊/替换解决方案可以根据设备功能调整其处理方式。在高端设备上,它运行完整的流水线以提供最高的视觉质量,而在低端设备上,它通过切换到计算轻量级的ML模型并绕过蒙版细化而继续保持高速运行。

细分模型

设备上的ML模型需要超轻量级,以实现快速推断,低功耗和小下载量。对于在浏览器中运行的模型,输入分辨率会极大地影响处理每一帧所需的浮点运算(FLOP)的数量,因此,其分辨率也必须很小。Google将图像缩减采样为较小的尺寸,然后再将其提供给模型。从低分辨率图像中尽可能精细地恢复分割蒙版,增加了模型设计的挑战。

整个分段网络在编码和解码方面具有对称的结构,而解码器块(浅绿色)也与编码器块(浅蓝色)共享对称的层结构。具体地说,在全局编码池和解码器模块中都应用了具有全局平均池的通道级注意,这对有效的CPU推断很友好。

具有MobileNetV3编码器(浅蓝色)和对称解码器(浅绿色)的模型体系结构。

Google将MobileNetV3-small修改为编码器,该编码器已通过网络架构搜索进行了调整,以在资源需求较低的情况下获得最佳性能。为了将模型尺寸减小50%,Google使用float16量化将模型导出到TFLite,从而导致重量精度略有下降,但对质量没有明显影响。生成的模型具有193K参数,大小仅为400KB。

渲染效果

分割完成后,Google将OpenGL着色器用于视频处理和效果渲染,其中的挑战是如何有效地渲染而不会引入伪影。在细化阶段,Google应用联合双边过滤器以平滑低分辨率蒙版。

减少了带有伪像的渲染效果。左:关节双边过滤器使分割蒙版平滑。中:可分离的滤镜可消除背景模糊中的光晕伪影。右: 更换背景光包装。

模糊着色器通过与分段蒙版值成比例地调整每个像素处的模糊强度来模拟散景效果,类似于光学系统中的混淆圈(CoC)。像素按其CoC半径加权,因此前景像素不会渗入背景。Google为加权模糊实现了可分离的滤镜,而不是流行的高斯金字塔,因为它消除了围绕人的光晕伪影。模糊以低分辨率执行以提高效率,并以原始分辨率与输入帧混合。

背景模糊示例

对于背景替换,Google采用一种称为光包裹的合成技术,用于混合分割的人和自定义的背景图像。光线包裹可以使背景光溢出到前景元素上,从而使合成更加身临其境,从而有助于软化分割边缘。当前景和替换后的背景之间存在较大对比时,它还有助于最大程度地减少光晕伪影。

后台背景替换示例

为了优化不同设备的使用体验,Google提供了多种输入尺寸(即,当前版本中为256×144和160×96)的型号,并根据可用的硬件资源自动选择最佳型号。

Google评估了两种常见设备上模型推理的速度和端到端流程:具有2.2 GHz六核Intel Core i7的MacBook Pro 2018和具有Intel Celeron N3060的Acer Chromebook 11。对于720p输入,MacBook Pro可以在120 FPS下运行更高质量的型号,而在70 FPS下运行端到端管线,而Chromebook在较低质量型号下运行推理速度为62 FPS,而端到端的运行速率则为33 FPS。结尾。

为了对模型准确性进行定量评估,Google采用了联合-交集(IOU)和边界F-度量的流行度量。两种型号均达到高质量,尤其是对于具有这种轻量级网络的情况:

Google还将针对细分模型发布随附的模型卡,其中详细介绍了Google的公平性评估。Google的评估数据包含来自全球17个地理区域的图像,并带有肤色和性别注释。Google的分析表明,该模型在各个区域,肤色和性别方面的性能均保持一致,而IOU指标仅存在很小的偏差。

https://m.toutiao.com/is/iLjn9d26/ 人工智能研究所: 视频动画详解Transformer模型–Attention is all you need.