ECCV2018论文解读：用回归方法判断热度图中的人体姿态-集智俱乐部的财新博客-财新网

导语

本文提出一种积分回归的方法用于人体姿势估计任务，该途径结合了基于热度图的方法和回归方法的优点，可以方便地应用于并改进任何基于热度图的模型。本文通过综合性实验全面验证了该方法的有效性，并表明在2D和3D的人体姿势估计数据集MPII、COCO、Human3.6M中，本方法都取得当前最好的结果。该论文据悉已被计算机视觉顶会 ECCV 2018 接收。下面是对这篇论文的解读。

论文标题：Integral Human Pose Regression

论文地址：

作者：Xiao Sun, Bin Xiao, Fangyin Wei, Shuang Liang, Yichen Wei（孙骁，肖斌，尉方音，梁爽，危夷晨）

1．人体姿势估计的两类方法

人体姿势估计主要分为基于检测（detection-based）的方法和基于回归（regression-based）的方法：

基于检测的方法是基于热度图的，对每个关节都生成所有位置的似然热度图，选择概率最大的位置作为该关节的位置。这种方法的缺点是：（1）取概率最大值的操作是不可微分的，所以无法使用端到端的训练方法；（2）由于深度神经网络的降采样操作，热度图的分辨率远低于输入图片的分辨率，这将导致不可逆的量化误差，关节位置的精度会因此受到限制。而使用更高分辨率的热度图，会产生更多的内存和计算开销。

另一种观点是把姿势估计看作一个回归问题，它的优点是可以端到端地学习，并产生连续的输出。然而，基于回归的方法的实际效果仍不如基于检测的方法。

2．积分姿势回归

2.1 2D和3D数据的混合训练

3D姿势估计的一个严重问题是缺乏大量的可训练数据，结合2D数据和3D数据一起训练是一个努力的方向。由于积分操作的可微分性，积分回归方法可以自然地采用这种混合训练方式。

本文把上述的积分操作分解成两个步骤：（1）分别独立地生成x、y、z上的一维热度图；（2）在一维热度图上积分产生相应的x、y、z的一维关节坐标。因为x、y、z被分解了，所以可以直接地混合使用2D和3D的训练数据。实验表明该方法可以极大地提高3D姿势估计的精度。

2.2 实验方法学

积分回归方法是免参数的，只是将热度图的表示转换成关节的位置，不影响其他算法的设计和选择。所以，它可以和其他的算法设计——不同的任务、热度图和关节的损失函数、网络结构、图片和热度图的分辨率——结合起来。下图是人体姿势估计方法的流程和实验中可以选择的设置。

任务：2D和3D的姿势估计任务、混合的2D和3D数据同时训练

网络结构：主要分为主干网络（backbone network）和头网络（head network）。主干网络一般是卷积网络，目的是从图片中抽取特征；而头网络从之前的特征中估计目标输出（热度图或关节）。

热度图的损失函数：均方误差、mxm的交叉熵损失函数、二值分布的交叉熵损失函数。

热度图和关节损失的结合：在关节坐标的损失函数上，可以选择L1距离或L2距离等。关节的损失函数中可以包括或不包括热度图的损失，积分回归的方法中，包括或不包括都有不错的结果。

图片和热度图的分辨率：通常更高的位置精度需要图片和热度图有更高的分辨率。积分回归方法对图片和热度图的分辨率的鲁棒性更好。

３．实验方法与数据

3.1 模型与训练

在以下3个数据集上，使用的模型和训练方法是相似的。提取特征的主干网络采用了ResNet或HourGlass模型。计算输出的头网络是全卷积的，它首先使用反卷积在特征图上进行上采样（upsampling）到需要的分辨率，输出通道的个数是固定的256；然后，用1x1的卷积层产生K个热度图。同样，我们也把最广泛的使用全连接层计算关节位置的输出方法作为基本对比。

同样，本文采用了简单的多阶段（multi-stage）体系结构，使用了Adam的优化方法，归一化输入图片为256x256，采用随机的平移、缩放、旋转和翻转来扩大数据集等。

3.2 MPII数据集

MPII是单人2D姿势估计的数据集，图片是从YouTube视频中收集的，覆盖了人类的日常活动，包括复杂的姿势和图片外观。一共大约2万5千张图片。在评估中，使用正确估计的关键点的比例（Percentage of Correct Keypoints, PCK）作为度量。一个关键点的估计值同真实位置的距离小于头部长度的某个比例a时，被认为是正确估计的，该评估方法称为PCK@a。

表1是实验的对比结果，其中，I*、I1、I2、I3是积分回归的方法，H1，H2，H3是基于热度图的方法，R1是直接回归的方法。这样的结果表明了热度图和关节的联合训练是有效的。尤其，I*的表现也不错，仅次于I1、I2、I3（I*指的是只使用了关节的损失没有包括热度图的损失），这是由于I*用于回归的特征更好，优于直接回归，因为I* 和直接回归方法R1的监督信号和网络结构都是相同的。

我们可以得出两个结论：（1）使用潜在的热度图特征的积分回归是有效的（I*>H, I*>R），即使在不使用热度图监督的情形下；（2）热度图和关节位置预测的联合训练结合了两种范式的优点，表现最好（I>H,R,I*）。

如表2所示，比较了在两种方法（H1/I1），两种输入图->特征图的分辨率和两种热度图尺寸（使用3或2个上采样层）情形下，性能（mAP@0.5, map@0.1, AUC）、计算（FLOPs）和网络参数个数的结果。毫无疑问，使用更大的图片尺寸和热度图尺寸可以获得更好的精度。然而，积分回归方法（I1）相比于基于热度图的方法（H1），更少受到分辨率的影响。所以，当计算能力有限、需要小分辨率时，积分回归方法更加适合。

所以，我们得出结论：积分回归方法能够极大地减轻基于热度图方法带来的量化误差或需要大分辨率的问题。

表3展示了在两种方法下使用不同的主干网络的结果。使用更大容量的网络，所有方法的性能都有提高，但是积分回归方法的性能仍然高于基于热度图的方法。

虽然使用大规模的网络提高了性能，但是同时带来了更大的计算量。积分回归方法I1使用ResNet-18已经实现了相当于使用ResNet-101的H1的性能。所以在实际中，需要使用小规模网络时，积分回归是个更好的选择。

表4展示了多阶段实现在使用与不使用积分回归方法时的结果。我们从中得出两个结论：（1）积分回归方法可以和多阶段的结构有效结合，性能会随着阶段数的增加而提高；（2）在所有阶段数下，积分回归的方法都超过基于热度图的方法。

从以上的研究中，我们得出结论：积分回归的有效性来源于它的特征表示。因为该方法在不同的热度图损失（H1、H2、H3）、不同训练方法（联合或不联合）、不同的分辨率和不同的网络结构（深度或多阶段）下，都有好的表现。

3.3 COCO数据集

COCO关键点的挑战是需要在不可控的环境下，进行多人检测和姿势估计。训练集、验证集和测试集一共包含标记了关键点的20万张图片和25万个人。评估方法是定义了物体关键点相似度（object keypoint similarity, OKS），并使用了在10个OKS阈值上的平均精度作为度量。

本文使用了两阶段的自上而下的范式，即先检测行人，后估计姿势。在行人检测上，使用带有可变形卷积的Faster-RCNN，并使用Xception作为主干网络。姿势估计时，对比了基于热度图的方法（H1）和积分回归的方法（I1），所有的设置和MPII中几乎相同。

实验的结果如表5所示，积分回归的方法比基于热度图的方法超出了1.5个百分点，是当前的state-of-the-art。

3.4 Human3.6M数据集

Human3.6M是目前最大的3D人体姿势估计数据集。数据是在可控的环境中采集的，包括360万帧的视频，从4个相机中捕捉到11个人（5名女性，6名男性）的15种活动。采集者和背景的图像都是简单的。

本文使用了两种训练策略：（1）只使用了Human3.6M的3D数据作为训练集；（2）同时使用了Human3.6M的3D数据和MPII的2D数据作为训练集。

实验的结果表明：（1）在两种策略下，积分回归都可以极大地提高精度；（2）混合使用了2D和3D训练数据后，结果都得到提高，如表6所示。多阶段的结构、网络规模和分辨率对结果的影响与之前的结论相同。

作者：丁晓静

审校：尉方音

编辑：王怡蔺

话题：