【正规买球app十佳排行官网】CVPR 2020丨微软亚洲研究院精选论文一览

作者:正规买球app十佳排行官网发布时间:2022-08-29 11:14

本文摘要:编者按:CVPR 2020 即将于6月14-19日在线上召开。微软亚洲研究院在本届 CVPR 共有25篇论文揭晓,本文汇总了部门精选论文,涵盖姿态预计、行动检测与识别、支解与检测、底层视觉等领域。

正规买球app十佳排行官网

编者按:CVPR 2020 即将于6月14-19日在线上召开。微软亚洲研究院在本届 CVPR 共有25篇论文揭晓,本文汇总了部门精选论文,涵盖姿态预计、行动检测与识别、支解与检测、底层视觉等领域。HigherHRNet: 自下而上姿态预计中的多尺度表征学习HigherHRNet: Scale-Aware Representation Learningfor Bottom-Up Human Pose Estimation论文地址:https://arxiv.org/pdf/1908.10357.pdf2D 人体姿态预计是盘算机视觉领域的基本研究偏向之一,多人 2D 姿态预计(Multi-Person Pose Estimation)是该偏向上的一个经典难题。

自下而上的框架在速度上有优势,可是由于卷积神经网络对于尺度不敏感,而图片中人的多尺度的难题导致现在的效果和自上而下框架另有一定差距。为此,在我们在 CVPR 2019 和 TPAMI 揭晓的HRNet[1,2](https://github.com/HRNet)事情的基础上,提出了 HigherHRNet 来解决自下而上方法中的多尺度难题。

图1:HigherHRNet 框架图现在主流的自下而上检测关键点的热度图(heatmap)分辨率使用1/4 ,我们发现这个分辨率用于做关键点的准确度还是不够高。为解决此问题,我们在 HRNet 的基础上通过 transposed convolution 获得更高分辨率的特征。

为相识决多尺度问题,我们进一步设计了一个高分辨率特征金字塔。传统的特征金字塔一般从一个很小的分辨率(好比1/32)开始,通过一系列上采样操作获得1/4 分辨率的特征。

我们提出的高分辨率特征金字塔则是从1/4 分辨率出发,通过 transposed convolution 获得更高分辨率的特征。在训练的历程中,我们使用多分辨率监视让差别层的特征能学习差别尺度的信息。

我们也使用多分辨率融合,把差别分辨率的热度图统一放大到原图巨细而且融合到一起,从而获得一个对尺度敏感的特征。在 COCO test-dev 上,HigherHRNet 取得了自下而上的最佳效果,到达了 70.5%AP。尤其在小尺度的人体姿态预计上,HigherHRNet 比之前的方法横跨了 2.5%AP。为了测试 HigherHRNet 对于拥挤(crowd)场景的鲁棒性,我们在 CrowdPose 上也举行了实验,而且取得了 67.6%AP 的效果,逾越了之前所有的方法。

HigherHRNet 已经开源:https://github.com/HRNet/HigherHRNet-Human-Pose-Estimation基于可穿着式惯性传感器和多摄像头融合的人体姿态预计:一种几何方法Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A Geometry Approach论文地址:https://arxiv.org/pdf/2003.11163.pdf高精度 3D 人体姿态预计现在主要有两种商业化解决方案:第一种接纳基于标志的多摄像头系统,其预计精度高,但仅适用于室内情况;另外一种方案则基于穿着式的惯性传感器,预计精度低,尤其存在漂移的问题,但利益是可以应用于自然场景中。在学术界,近年来一些事情开始关注将无标志的多摄像头系统与惯性传感器联合起来,希望其既能应用于室外情况,同时又能取得较高的精度。我们可以将这些事情或许分为两类:第一类方法通过优化一个全局的人体模型的参数,使得其所对应的人体姿态能够同时被传感器和图像所解释,该方法可解释性强,但缺点是对应的优化问题通常很难找到最优解,因此效果较差;另外一类方规则是通过黑盒的方式将传感器和图像的特征融合在一起,这种不行解释的融合方式导致其效果并不稳定,很难用于商业方案。

图2:左,三维空间中特定角度下的 P、Q 两点,在差别视角下的图像中的位置关系;右,基于几何位置关系的特征融合。在本事情中,我们通过几何的方式将传感器和图像融合在一起,相比于黑盒方式,该方式具有更好的可解释性,从而也越发稳定。详细来说,惯性传感器提供了其所关联的两个节点的角度信息,我们使用该信息对两个节点举行相互增强。通过这种方式,我们可以大幅提高某一节点存在遮挡时的精度。

在 Total Capture 数据集上,我们的方法将之前最好方法的误差从34.1mm降到了24.6mm。而如果只关注那些比力难题的例子,本方法带来的提升会越发显着。相关代码已在 GitHub 上开源。

基于平行标架的 3D 曲面卷积神经网络PFCNN:Convolutional Neural Networks on 3D Surfaces Using Parallel Frames论文地址:http://haopan.github.io/surfacecnn.html三维数据是视觉数据的重要组成部门,相当一部门三维数据以外貌网格(surface mesh)的形式高效表达。与图像相比,外貌网格由不规则的极点(vertices)和面片(faces)毗连组成,而且具有曲面的非欧几何(non Euclidean geometry)。这些特点阻止了人们把图像域的 CNN 和深度学习技术直接推广到外貌网格上。

试图解决这一问题的事情形成了几何深度学习(Geometric deep learning)领域。该领域以推广深度学习至非欧几何空间为目的,涵盖了曲面、图等空间结构。

以曲面上的深度学习为例,诸多事情都试图把曲面整体映射到或局部展开为平面,从而允许直接使用图像(欧式几何)上界说的尺度 CNN。然而问题的关键在于,图像域 CNN 的每层卷积操作(convolution)都具有内蕴的平移共变属性(translation equivariance),即平移与卷积两者切合交流律;这一属性导致了信号可以在图像上流传,是 CNN 相比于简朴的 MLP 在视觉任务中更有效率的关键。以往的事情,或是因为整体曲面映射导致了平移的严重扭曲,或是因为局部展开在各点处的不协调而失去了欧式平移的结构,都导致所界说的曲面 CNN 不够有效。

图3:左,图像的欧式平面上的平移;中,曲面上的测地平移;右,我们结构的平行标架界说的曲面上的平移。曲面上的平移在差别点处难以协调,而我们结构的曲面平移在局部与欧式空间一致,由此界说的 CNN 具有平移共变性和更高的特征学习效率。鉴于曲面非欧几何的本质,在本文中,我们使用平行标架场(parallel frames)来结构局部的平直联络(locally flat connection)和欧式平移结构,从而允许在局部界说具有平移共变性的尺度卷积和 CNN,故而命名 PFCNN。

平行标架场导出平直联络是离散微分几何中的工具,可以在给定曲面网格上快速盘算,而且能够对齐和捕捉曲面的重要几何特征。更多细节请参考文章正文。

通过使用 PFCNN 框架,我们在曲面网格表现的数据集和各种任务上都取得了优于已有方法的效果。下图展示了人体外貌支解和注册的例子;更多效果请参考文章。图4:人体外貌支解效果。

上中下行依次为:人工标注的 ground truth 支解、SOTA 方法的效果、我们的效果。可以看到,我们的效果更准确合理。图5:人体外貌注册效果。

正规买球app十佳排行官网

上中下行依次为:标注的 ground truth 注册对应的纹理映射、SOTA 方法的效果、我们的效果。可以看到,我们的效果注册扭曲更小,对于外貌拓扑的变化更鲁棒。

语义引导下的基于人体骨架的高效行为识别Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition论文链接:https://arxiv.org/pdf/1904.01189.pdf基于人体骨架的行为识别近年来获得越来越多的关注。该任务旨在通过人体骨架序列来识别发生的事件或行为的种别。人体骨架可以通过对视频举行人体姿态预计(pose estimation)获得,也可以通过深度摄像机(例如 Kinect)获取,表达了人体的姿态和运动信息。为了取得满足的识别精度,近年来,人们针对基于骨架的行为识别探索了种种各样的网络结构,包罗递归神经网络(RNN)、卷积神经网络(CNN)、以及图神经网络(GCN),或者组合其中两种网络的混淆网络。

RNN 适合于处置惩罚时间序列数据,而且参数量低,但性能不及卷积神经网络。CNN 常用于处置惩罚图像或者视频数据中像素点(pixel)排列成整齐矩阵的数据。以便于使用 CNN 举行行为分类,人们将骨架序列数据重排成矩阵(图像),差别行表现差别的枢纽点,差别列对应差别时间,枢纽点的两维(2D)或 三维(3D)坐标值作为图像的像素值。骨架序列作为结构化的数据,图卷积网络也被用于挖掘节点间的相关性。

然而这些方法的研究大多只思量性能的提升,而忽略了网络的优化设计和庞大度。在实际应用中,如何设计高性能的轻量级模型也很是重要。另外,对于表达一个枢纽点,除了坐标位置信息(我们称为 Dynamics)外,节点类型(joint type)和所处的帧(frame index)这些语义信息(Semantics)也对行为识别至关重要。例如两个运动轨迹相同的节点,会由于所属节点类型的差别,而对应差别的行为种别。

然而,以往的事情往往忽略了对语义信息的显式使用。图6:差别方法在 NTU60 数据库(CS setting)上的性能比力。

横坐标表现模型参数量,纵坐标表现识别精度。我们的方法 SGN 在很是少的参数量情况下,实现了最好的识别精度。

本文中,我们设计了语义引导的轻量神经网络 Semantics-Guided Neural Network(SGN)。如图6所示, SGN 方案仅需很是小的参数量(仅0.69M)就实现了很高的识别精度。

正规买球app十佳排行

图7:Semantics-Guided Neural Network(SGN)框图图7展示了 SGN 的网络结构。我们使用三层 GCN 和两层 CNN 搭建了一个强的基础网络(Strong Baseline), 并在此基础上引入了节点类型(Joint Type)和帧位置(Frame Index)的语义信息。该网络由 Joint-level Module(JL)和 Frame-level Module(FL)组成。

JL 模块实现同一帧内节点间相关性的挖掘和信息的通报。节点类型信息和节点位置信息团结学习图(Graph)的毗连,并到场信息通报。而以前的方法忽略了语义信息的使用,片面地将节点位置信息作为节点的代表。FI 模块实现帧间信息的挖掘,通过显式地将帧位置(时间顺序信息)嵌入到时域 CNN 网络中,从而更好地识别行为。

该方法在多个数据库上均体现出了较高的识别精度。基于影象增强的全局-局部整合网络:更准确的视频物体检测方法Memory Enhanced Global-Local Aggregation for Video Object Detection论文地址:https://arxiv.org/abs/2003.12063在视频物体检测任务中,由于相机失焦、物体遮挡等问题,仅基于图像的目的检测器很可能达不到令人满足的效果。一般来说,人类主要通过两类信息来辅助对质量较差的帧举行物体检测,即局部定位信息与全局语义信息。从这个角度出发,我们发现现在的视频物体检测方法都仅单独思量了其中一种信息举行辅助目的检测。

除此之外,另一个在现存方法中存在的问题就是整合规模不足,也就是关键帧能够使用信息的规模较少。图8:模型结构示意图针对这两个问题,我们提出了基于影象增强的全局-局部整合网络,其架构如图8所示,分为以下两部门。第一步:解决全局信息和局部信息单独思量的问题。我们设计了简练的基础模型来完成这项任务。

首先,我们使用区域候选网络从关键帧的相邻帧和全局帧中生成一些候选区域。第二是使用关联模块(relation module)将全局帧中候选区域对应的特征给整合到局部帧的候选区域的特征中。之后,局部帧内部会再过若干层关联模块获得增强后的关键帧特征。

由此,我们的关键帧特征就同时获得了全局和局部两方面的信息。第二步:解决整合规模太小的问题。如果只有基础模型,我们关键帧能够获得的全局和局部信息仍然很少。

为相识决这个问题,我们设计了一个简练高效的长时影象模块(Long Range Memory,LRM),在做完对某一帧的检测后将其特征生存下来,并在下一帧的检测中使用该特征来辅助检测,由于关系模块的多层结构,可以极大地增加了关键帧能够看到的规模。不仅如此,这两部门结构还相互受益:长时影象模块使得关键帧能够获得更多的全局和局部信息,反过来,这些帧又能够提供一个越发结实的影象。表1:实验效果我们在广泛使用的视频物体检测数据集 ImageNet VID 上对我们的方法举行了实验,上表中总结了我们的方法与其他方法相比的体现。

在本文新提出的模块的辅助下,我们训练出来的视频物体检测器取得了在该数据集上的至今最佳效果。参考文献:[1] Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang: Deep High-Resolution Representation Learning for Human Pose Estimation. CVPR 2019: 5693-5703[2] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, Wenyu Liu, Bin Xiao: Deep High-Resolution Representation Learning for Visual Recognition. To appear in TPAMI。


本文关键词:【,正规买球app十佳排行,正规,买球,app,十佳,排行,官网,】,CVPR,2020

本文来源:正规买球app十佳排行-www.kencms.com