使用卷积网络估计三维形状的正朝向

中圈料孽艘求大誊使用卷积网络估计三维形状的正朝向作者姓名:刘子舜学科专业:计算数学导师姓名:文lJ禾lJ网IJ教授完成时间:二。一六年五月硕士学位论文

UniversityofScienceandTechnologyofChinaAdissertationformaster’SdegreeUprightOrientationof3DShapes

withCOnVOIUtiOnaINetworks

Author:

Speciality:ZishunLiuComputationalMathematics

Supervisor:Prof.LigangLiu

FinishedTime:May,2016

中国科学技术大学学位论文原创性声明

本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。

作者签名:

中国科学技术大学学位论文授权使用声明

作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。

保密的学位论文在解密后也遵守此规定。

毗幻开

作堵隧鲁●●口能霍。一年)

.一,参一立手~一,埠导师签名:笾1刚幽导师签名:也!型!型J

签字日期:签字日期:鲨!i:量:兰仝

摘要

大多数三维物体都有一个自然向上的朝向,我们称之为正朝向。将物体摆正到其正朝向是一个重要的问题。首先,它有助于物体的识别。而且,这也是物体匹配、检索、形状分析等许多图形学问题中的第一个步骤。另外,这也有助于生成具有高识别度的物体预览图,来帮助三维形状数据库的管理。然而,由于各种各样的原因,现有数据库中的许多模型都没有处在其正朝向。

本文提出了一种基于机器学习的方法,使用三维卷积网络来预测物体的正朝向。当给定足够量的三维物体及其正朝向的方向向量时,该预测问题可以建模为回归问题。本方法借助于深度网络的学习能力,可以处理一般性的三维物体,而不需要对其形状做对称性、平行性等假设。除了网格模型外,本方法还可以处理能够被体素化的其他种类的数据,例如隐式曲面和点云。

与基于卷积网络的方法相比,过往方法的劣势在于它们受限于其预先假设的规则。但是,这些规则并不总是成立。因此,基于学习的方法更适用于一般的物体。尽管已有工作中已经使用了数据驱动的方法,但是其学习过程基于人工设计的稳定性、可见性和平行性等特征,这些特征对一般物体的正朝向估计并不适用。相比之下,神经网络通过端到端的学习方式,直接从原始数据中提取高层知识,而不依赖于物体的对称性等正规性质。

但是,单一的卷积网络难以对一般的物体都起作用。核心问题在于,每种物体的正朝向有其特殊的性质。这种情况在机器学习中被称为干扰现象,会导致泛化能力不足。也就是说,应该使用不同的策略来处理不同品种的物体。因此在本文提出的系统中使用了分治的方法。对于每一个形状,首先通过一个网络对其分类,然后才将它传入在对应品种上训练的正朝向回归网络进行预测。另外,本文使用了基于距离的聚类方法来减少所需网络的个数,以及测试中增强的方法来提高准确率。

丰富的实验展示了本方法的有效性和高效性。本系统在测试集上达到了90%以上的正确率,并对训练集以外的物体品种具有一定的泛化能力。并且实验表明本系统可以处理一些其它方法无能为力的情况。此外,利用本方法处理一个模型,平均时间不超过0.15秒,比现有方法高效得多。因此更方便应用于机器人学任务等需要即时反馈的问题。关键词:正朝向,数据驱动的形状分析,体素化,卷积网络

Abstract

ABSTRACT

usuallyposedintheiruprightorientations,whichmakesthemMostobjectsare

3Dshapesintheireasilyrecognizable.Also,itistheveryfirststeptoposethegiven

uprightorientationsinmanygraphicstasks,suchasmatching,retrievalandshapeanal-ysis.Moreover,it

managementcanbeusedtogeneraterecognizableobjectthumbnails,helpingthereasons,manymodelsinexistingof3Dshaperepositories.Duetovarious

databasesarenotintheiruprightorientation.

Inthispaper,wepresent

tionusing3DConvolutionalalearningbasedmethodtopredicttheuprightorienta-representationsof3DNetworks(ConvNets).Givenvoxel

taskshapesandcorrespondingorientationvectors,thisprediction

aCanbeformulatedasregressionproblem.Leveragingthelearningabilityofdeepneuralnetworks,general

cancategoriesof3Dshapes

metryorbehandledwithoutmakinganyassumptionssuchcanassym。parallelism.Besidesmeshmodels,theproposedmethod

candealwithshapesrepresentedinothertypesthat

clouds.bevoxelized,suchasimplicitsurfacesandpoint

methodsComparedwiththeConvNetsbasedapproach,existingarelimitedby

theirpredefinedrules.Nevertheless,thisobservationisnotapplicabletoallshapes.Thuslearningbasedmethodsareappreciatedtodealwithgeneralobjects.Althoughtheideaofdata.drivenhasbeenadoptedinexistingapproaches,thelearningprocedureisbasedonthehand.craftedfeaturessuchasstability,visibilityandparallelism,whicharenotsuitableforgeneral3Dshapes。Bycontrast,neural

ofend.to.endlearning.High-levelknowledges

relyingonnetworksworkinthestyleCanbecapturedfromrawdata,withoutobject’Sregularitysuchasexplicitsymmetry.

However,asingleConvNetdoesnotworkwellforalltypesofshapes.Thekeychallengeisthateachshapecategoryexhibitsparticularcharacteristic

orientation.Thisisreferredtoasontheuprightinterferenceeffectwhichwillleadtopoorgeneraliza-tion.Inotherwords,differentstrategiesshouldbetakento

Thus

by

onaahandlediversecategories.divide.and.conquerschemeisusedinOursystem.Eachshapeisfirstclassifiedarenetworkandthenfedintooneoftheorientationregressionnetworksthatdistancetrainedeachofthecategories.Furthermore,abasedclusteringmethodisproposedtoreducethenumberofnetworksandanoveltest-timeaugmentationprocedureisused

theaccuracy.toimprove

Abstract

Theefficiencyandeffectivenessofthisapproacharedemonstratedbyextensiveexperiments.Oursystemachievedtheaccuracyofmorethan90%onthetestdataandshowedthegeneralizationcapabilityofinferringuprightorientationsforshapesnotbelongingtothetrainingcategories.AlsoexperimentalresultsshowedthatOursystemiSabletohandleseveralcasesthatothermethodsfail.Moreover,estimationforeachshapetooknomorethan0.15Sonaverage,whichismuchfasterthanexistingapproaches,thusapplicabletoroboticstasksinwhichimmediatefeedbackisrequired.KeyWords:UprightOrientation,Data—DrivenShapeAnalysis,Voxelization,Convo-lutionalNetworks

目录

目录

摘要…………………………………………………….iAbstract…………………..………………………..……iii第1章绪论…………………………………………….1.1正朝向估计问题的研究背景………………………….…..1.2本文方法概述….…..............………..................112第2章相关工作…………………………………………52.1陶像的正朝向.……......................…..…...……..2.2三维模型的正朝向............….………..............…..2.3视角选取.……………….………….……………….2.4三维形状匹配、检索和注册……………..……….………2.5深度神经网络…………………………….…………..第3章基于卷积网络的方法………………………………3.2三维卷积网络....….…..................…….………...5556693.1系统概要.……........…………...….............…...993.3形状品种的聚类…………..………….…..…………..103.4测试中增强………………………………………….。ll第4章实验…………………………………………….】34.1方法实现.……………….………….……………….134.2结果分析………...………………………………….154.2.1干扰现象...................................................154.2.2网络可视化.….....................…...............。.....154.2.3泛化能力...................................................164.2.4网络结构...................................................164.3比较…….…..….…..................…….………...17第5章总结与展望………………………………………235.1总结............….…..............…...…….….......235.2展望.....…...........…......…....................…..23参考文献………………………………………………..25致谢…………………………………………………….29V

目录在读期间发表的学术论文与取得的研究成果…………………3l

图目录

图目录

1.1三维物体的正朝向估计….……………………...………1.2正朝向估计的应用...…...…............….........….….2.1三维物体正朝向估计的相关工作示意图………………….….2363.1系统概要…........…...…........................….....103。2回归网络的结构……………………………………….113.3通过基于错误率定义的距离度量进行物体品种的聚类…………..1l3.4使用10个回归网络时的误差分布(单位:度)……....-........124.1测试集中的物体样例……………………………………154.2于扰现象…………………………………….………174.3第一个卷积层的可视化….…..…..……………..………204.4网络高级信息提取能力的可视化…………………………..204.5网络高级信息提取能力可视化的有一个例子.…….…..………214.6本方法的泛化能力..…...……...........…..…..…..….2l4.7与支撑面法Ⅲ的比较..…..........…................……..224.8与张最低秩法[2】的比较………………………….………22

图目录

表目录

表目录

4.1同归网络的结构......…..............….…..-...…..-...・144.2分类网络的结构。.……………………………………・144.3不同设定情况下整个系统的精确度.......…………….……・164.4不同分类网络结构下的分类精度….….……………………184.5试验的同归网络结构..…..….......……・……・・………・184.6不同网络结构下的回归精度....….….・・・・・・・・・-・・・・・・・・・・・・・・194.7Nets.5系统对每一个物体预测所用时问(单位:秒)…...……・・19

表目录X

第1章绪论

第1章绪论

1.1正朝向估计问题的研究背景

数字几何模型是指数字化保存的三维形状几何信息。例如设计得到机械组件模型,动画角色模型,以及扫描得到的人体骨骼模型都属于数字几何模型。作为一种新型的数字媒体,数字几何模型已经被广泛应用于工业制造、数字娱乐以及医学诊疗等诸多领域。数字几何处理就是研究处理数字几何模型的方法的学科。数字几何处理过程的输入是数字几何模型。根据输出的不同,可以将数字几何处理方法分为两类:低层数字几何处理和高层数字几何处理。低层数字几何处理主要关注怎样从已有数字几何模型中得到更高质量的模型,包括网格模型去噪、重网格化、网格参数化等。高层数字几何处理又称为形状分析,着眼于怎样从输入模型的集合中提取有用的信息,包括形状对应、形状分类、形状协同处理竺弋于0

正朝向估计是高层数字几何处理中的一个问题。大多数三维物体都有一个自然向上的朝向(如图1.1),我们称之为正朝向。对于输入的任意姿态的三维物体,正朝向估计的目标是估计出该物体在当前姿态下正朝向所处的位置。然后,通过以及简单的旋转变换,就可以将该物体摆正到它的正朝向。

将物体摆正到其正朝向是一个重要的问题。首先,它有助于物体的识别。一般来说,当物体按照其正朝向摆放时,人们更容易识别该物体。因此,将物体摆正也有助于生成具有高识别度的物体预览图,来帮助三维形状数据库的管理。简单来说,在确定物体的正朝向后,可以选取侧面的视角生成预览图。这样的视角一般比俯视和仰视的视角具有更高的可识别度。而且,将物体旋转到正朝向也是许多图形学和机器人学问题中的第一个步骤,例如:物体匹配【3】3、检索【4,5】、形状分析[61和放置规划[71。展开来说,协同分割(如图1.2左)是形状分析中的一个问题,它首先需要同类物体处于相同的姿态,这样才有利于协同处理不同个体之间的对应。这就首先需要将物体按照其正朝向摆放。又如放置规划(如图1.2右),这是机器人学中的一个问题。人们期望服务型机器人可以帮助我们移动和放置物品。要完成这一任务,就需要机器人有判断物体应以何种姿态放置的能力,这就需要控制系统对物体的正朝向进行估计。综上所述,正朝向估计是一个重要的问题,在许多问题中都有应用。

由于各种各样的原因(例如建模或扫描系统的不同),现有数据库中的许多模型都没有处在其正朝向。而在放置规划中,机器人面对的物体所处的姿态也不

第1章绪论

图1.1三维物体的正朝向估计

一定处于其正朝向。这些需求已经催生了一些研究工作来解决这一问题。但是这些方法往往受限于其先验假设,适用范围小,处理一个模型要耗费数秒,工作效率低。因此,更快速有效的方法有待提出。

1.2本文方法概述

本文提出了一种基于机器学习的方法,使用三维卷积网络(convolutionalnetworks,ConvNets)来预测物体的正朝向[∞】。当给定足够量的三维物体及其正朝向的方向向量时,该预测问题可以建模为回归问题。本方法借助于深度网络的学习能力,可以处理一般性的三维物体,而不需要对其形状做对称性、平行性等假设。除了网格模型外,本方法还可以处理能够被体素化的其他种类的数据,例如隐式曲面和点云。

基于机器学习的方法,或者说数据驱动方法【¨】,与非数据驱动方法的区别在于,后者以人工定义的逻辑规则完成任务,而前者从数据中寻找问题的规律。非数据驱动的方法受限于其预先假设的规则,如果假设的规则不成立,则方法失败,这就是它们的劣势所在。例如,Fueta1.【1】提出的支撑面法基于如下的观察:人造物体一般具有一个能够保持自身稳定的支撑面。但是,这一观察并不总是成立,特别是对于自然的物体。因此,基于学习的方法,更适用于一般的物体。基于学习的方法主要包含两个阶段:训练阶段和测试阶段。训练阶段旨在从数据中发现规律,使用的数据集称为训练集。测试阶段就是检验训练得到的规律的正确性,使用的数据集称为测试集。机器学习方法在训练集上的表现良好并不能保证2

第1章绪论

图1.2正朝向估计的应用

注:在形状分析(左图,协同分割,图片来自Sidieta1.【8】)和放置规划(右图,图片来自A

GeekyWorld[9】)中,正朝向估计都是重要的一步。

该方法在新数据上有良好效果。我们更关心该方法所发现的规律在测试集上的正确率。测试精度高,则称该方法泛化能力强。

深度神经网络方法是近些年受到广泛关注一种机器学习方法,在很多领域取得了显著效果。本文使用的卷积网络就是一种典型的深度神经网络。神经网络方法区别于其他机器学习方法的一点在于,其他方法需要人工提取特征作为训练数据,而神经网络方法可以将原始数据作为训练输入,自动学习特征。具体来说,尽管支撑面法【|】中已经使用了数据驱动的方法,但是其学习过程基于人工设计的特征,例如:稳定性、可见性和平行性,这些特征对于规整的人造物体一般定义明确且合理,而对一般的自然物体并不十分有效。相比之下,神经网络通过端到端(输入数据端到最终结果端)的学习方式,直接从原始数据中提取高层知识,而不依赖于物体的对称性等正规性质。

但是,单一的卷积网络难以对一般的物体都起作用。核心问题在于,每种物体的正朝向有其特殊的性质。例如小汽车是“水平的”但白行车是“竖直的”。这种情况在机器学习中被称为干扰现象【位】,会导致泛化能力不足。也就是说,应该使用不同的策略来处理不同品种的物体。因此在本文提出的系统中使用了分治的方法。对于每一个形状,首先通过一个网络对其分类,然后才将它传入在对应品种上训练的正朝向回归网络进行预测。另外,本文使用了基于距离的聚类方法来减少所需网络的个数,以及测试中增强的方法来提高准确率。

聚类是一个经典的机器学习问题,目的是将给定的一组样本分成若干个类,力求类内尽量相似而类间有明显区别。在本方法中,为了减少所需回归网络的数量,进而减少内存消耗,我们采用了聚类的方法。通过定义某种度量,来计算任3

第l章绪论

意两个物体品种之间的相似度。最终,相似的物体被聚在一起,使用同一回归网络处理;不相似的物体在不同的类,避免相互干扰。第4章中的实验将会证明,这种距离的度量是非平凡的,不恰当的聚类会带来严重的干扰现象。

数据增强是一种机器学习中常用的提高准确率的方法。比较常用的是训练数据的增强。也就是为了避免训练集所包含的样本多样性不足,通过其他方法生成更多的数据用于训练。在本问题中,为了避免训练集所包含的物体朝向单一,我们将物体随机旋转若干角度,以达到增加样本多样性,提高泛化能力的目的。在这里,我们还使用较为少见的测试中增强。即,在测试阶段,将待测试样本变换成多种形式,然后对不同的形式分别测试,最后综合评价这些结果,得到测试结论。这样会牺牲一定的测试时间,但可以加强结果的稳定性,提高测试精度。

丰富的实验展示了本方法的有效性和高效性。本系统在测试集上达到了90%以上的正确率,并对训练集以外的物体品种具有一定的泛化能力。并且实验表明本系统可以处理一些其它方法无能为力的情况。此外,利用本方法处理一个模型,平均时间不超过0.15秒,比现有方法高效得多。因此更方便应用于机器人学任务等需要即时反馈的问题。

本文中论述的方法的创新点如下:

・得益于卷积网络的学习能力,本方法可以处理具有一般性的物体,包括非对称的物体。

・相比于已有方法,本方法有至少30倍的加速。

下文结构如下:第2章简要论述了一些相关工作。第3章论述本文提出的卷积网络系统。第4章展示了实验结果以及与相关工作的比较。最后,在第5章给出了本文的结论以及下一步改进本方法的一些方向。4

第2章相关工作

第2章相关工作

2.1图像的正朝向

未知朝向的图像与其正确朝向可能相差的角度有如下四种情况:0。,90。,180。,或270。[13-i6】.因此,图像的朝向估计问题可以建模为四类分类问题。大多数已有工作的策略是:首先对每种可能的朝向提取一个高维特征,然后在这个特征的集合上训练支持向量机(supportvectormachines,SVM)t14,16】或其他分类器㈣来估计正确的朝向。然而对于一般的三维物体来说,其朝向空间是二维且连续的,难以将其归纳为几个候选方向。因此三维物体的正朝向估计问题适宜建模为回归问题而不是分类问题。

2.2三维模型的正朝向

在计算机图形学领域,已经出现了一些工作来解决物体正朝向估计问题或形状对齐问题。主成分分析法(principalcomponentanalysis,PCA)It7】是一种常

et用方法,但该方法不精确,且对许多物体不鲁棒,尤其是非对称物体。Fua1.吲

和Lineta1.【|8】中使用了支撑面法来做正朝向估计,即通过比较一系列潜在的能稳定支撑物体的面来确定正朝向。这类方法对大多数人造物体有效,但是不适用于支撑面不明确的自然物体。另外一类方法基于如下的观察:三维形状处于正朝向时其空间坐标对应的矩阵具有较低的秩。受到Zhangeta1.【旧】的启发,Jineta1.【20】提出了正朝向估计的矩阵低秩法,即通过使得物体在各个坐标平面上的

et投影形状构成的矩阵的秩降低,来使物体接近其正朝向。Wanga1.【2】提出了正

朝向估计的张量低秩法,即最小化三维形状的体素表示的张量秩的方法。这两种低秩方法都可以处理具有一定对称性的物体。但是,以上所有方法都不能处理一般性的物体(相见第4.3节)。

2.3视角选取

从不同视角观察三维物体,其中有一个最直观、最具有信息量的视角,称为代表性视角。选取代表性视角有助于进行很多几何处理工作,例如形状检索。大多数方法使用三维物体的几何信息进行代表性视角的选取,例如可见多边形个数12‘】和剪影轮廓【2纠。一些工作基于信息论,例如视角熵(viewpointentropy,M),多尺度熵(multi.scaleentropy,【24】)或视角共信息(viewpointmutualinformation,网)。将物体用本方法摆正在正朝向,将有助于选取有代表性的视角。气

第2章相关工作

,触㈨≯

哪口口I

口目妥

图2.1三维物体正朝向估计的相关工作示意图

注:左图:支撑面法(图片来自Fuetal.【1】),中图:矩阵低秩法(图片来自Jinetal.【!o】)。右

图:张量低秩法(图片来自Wangeta1.[2】)。

2.4三维形状匹配、检索和注册

三维形状的检索[4,51和匹配【3】方法都是为了在物体数据库中找到与指定形状相似的物体。三维物体的注册[16】方法是为了在多个物体间找到对应的部分。这些技术都在试图设计某种鲁棒而有区分度的方法,来度量不同物体(或部分物体)之间的相似度。这种度量需要对物体的各种变换(刚性或非刚性)具有鲁棒性【吲。为了解决这一问题,大多数方法都要对模型进行预先对齐,即放置在一个具有一般性的标架内。这种预先对齐一般使用PCA方法。正朝向估计的方法可以对物体估计一致的朝向,进而将物体对齐的问题从两个自由度简化到一个自由度,从而帮助该问题的解决。

2.5深度神经网络

人工神经网络(artificialneuralnetwork,砧州)是一种模仿生物神经网络的机器学习模型,其中包括卷积网络,近年来,由于可供计算的数据越来越丰富,计算设备性能越来越高,深度神经网络方法(深度学习,【27】)强大的学习能力被挖掘出来,并在很多领域取得了突破。

卷积网络在计算机视觉的问题上已经展现出了压倒性的优势。这些问题以RGB或RGBD二维图像为输入,对输入图像进行某种程度语义分析。一项较早的工作是手写数字识别系统LeNet.5【281,该系统在MNIST数据集上取得了非常好的效果。Krizhevskyetal.【29】使用卷积网络对一般的图像的进行分类,在ImageNet数据集取得了高出其他方法10%的突破。卷积网络还被用于交通标识识别【3。】、人脸识别【:;l】、人脸关键点定位[321、手势识别【331、人体动作识别[341、物体检测圈、图像分割冈等。相对于全连接的多层感知机网络结构

第2章相关工作

在其他领域,深度神经网络的应用也带来了突破性的进展。在智能对弈领域,基于神经网络的AlphaGo[弦】取得了举世瞩目的成果。在自然语言处理领域,适于处理时序信息的RNN(recurrentneuralnetwork,㈣)和LSTM(10ngshort.termmemory,【39】)取得了突出效果。LSTM被可用于语音识别、机器翻译、图文翻译等多种自然语言处理问题。

当前已经有一些工作以深度学习的方法处理三维物体相关的问题,例如分类、识别和检索。但是,绝大多数这些工作将三维物体看作一系列不同视角下的色彩图、深度图或二者的结合【{¨坨】,而忽略了不同视角图像之间的三维联系。直接使用体数据来表示三维物体可以克服这一缺点。Wueta1.[43】是第一项将体数据作为神经网络的输入的工作,它将三维形状表示为三维格点上的二值概率分布,使用深度卷积置信网络(convolutionaldeepbeliefnetwork,CDBN),在物体分类问题上得到了好的效果。Jietal.【“】提出了另外一种三维卷积网络,将时问看作第三个维度,进行视频中的人体动作识别。该三维卷积网络与本文的三维卷积网络有明显不同,不再赘述。7

第2章相关工作8

第3章基于卷积网络的方法

第3章基于卷积网络的方法

考虑n个品种的三维物体G(i=1….,礼),正朝向的估计问题可以建模为一个回归问题。给定一定数量的三维物体的体素表示V及其对应的正朝向单位向量U,可以使用包含未知参数卢的函数u≈.后(V)来拟合这些数据。

尽管三维卷积网络可以直接应用到这一问题上,但是,不同品种物体的正朝向各有其特殊的性质,放在一起进行学习会产生严重的干扰现象进而导致泛化能力过差【12】。既然难以训练对所有n个形状品种适用的网络,这里使用分治的方法进行学习,即对不同的物体品种分别进行学习。自然地,可以分别训练T/,个回归网络。另外,需要训练一个分类网络作为阀门以决定输入数据将被传入哪一个回归网络。本系统的测试阶段工作流程如图3.1所示。

3.2三维卷积网络

这里使用了标准的卷积网络进行回归和分类。

回归网络(如图3.2)的输入是三维物体的体素表示,输出是预测正朝向的三维向量。如图3.2所示,回归网络由一定数量的三维卷积层和全连接层组成,二者都是线性变换,每一个线性变换层后面都有一层非线性激活单元。在输出层使用的激活单元为双曲正切函数tanh(.)。当输出值接近1或一1时,学习速率会变慢(因为正切函数的输出在这附近时梯度非常小),为了避免这种情况,我们把朝向向量U的数值乘以了0.5进行放缩。在其它各层,选取rectifier[4j】

ReLU(x)=max(O,z)

作为激活函数。最终使用批次大小为Ⅳ的批量梯度下降法,通过最小化如下的欧式损失函数来训练整个网络。

.Ⅳ

Loss=丽1∑慨一Hi幢

其中fli是实际的三维朝向方向向量,U;是对应的回归结果。

分类网络的结构与回归网络类似。不同之处在于其最后~个全连接层的输出指向了n端的softmax分类器,以生成在n个品种标签上的概率分布。相应地,最终的损失函数是multinomiallogisticloss。9

第3章基于卷积网络的方法

图3.1系统概要

注:输入数据传输通过分类网络(蓝色部分)后可以预测得到一个分类结果i∈.[1….,礼)。

之后,输入数据又被传入第i个回归网络。回归网络输出的三维向量即为预测的正朝向方向向量。以上礼+1个网络的训练互不依赖,可以相互独立地训练得到。

3.3形状品种的聚类

尽管不同的物体品种各有其特殊之处,但是一些品种(如桌子和椅子)的特性是一致的,可以通过类似的策略来预测正朝向。这样的品种可以聚类在一组,使用同一个回归网络进行预测。如此一来,可以去除冗余的网络,节省内存消耗。

然而,要确定哪些品种是一致的,这并不是一个平凡的问题。如果在不一致的品种上训练,结果的精度将远低于在各个品种上分别训练的结果。本文采用了一种基于品种之间距离度量的方法,这种距离度量由各个回归网络在各个品种上的错误率来确定。

为了定义距离度量,需要在所有礼个物体品种上测试这n个回归网络,以得到一个方阵E,其中E(i,J)是回归网络亿在物体品种Cj上的错误率(错误即/(u,d)大于某个闽值)。然后,计算D=(E+ET)/2得到最终的距离矩阵,其中D(i,J)表示物体品种已和Cf之间的距离。该值越小,说明这两个品种物体的正朝向越容易被相同参数的网络估计出来。

得到距离矩阵之后,使用层级聚合聚类算法【46】建立聚类树,然后人为决定切割聚类树的位置,则可以得到一定数量的物体品种组。聚合在一起的物体组需要重新训练回归网络,而未聚合的物体品种对应的回归网络可以保持不变。另外,分类网络也不需要重新训练。

1n

第3章基于卷积网络的方法

24a

图3.2回归网络的结构

§冬杂邈繁窝孥≮繁

己胡

浴缸

自行车

小汽车

椅子

杯子

水果

桌子飞机浴缸杯子自行车小汽车椅子狗桌子水果人誉警惫誊妻爸弩繁警≮

图3.3通过基于错误率定义的距离度量进行物体品种的聚类

注:左图:距离矩阵。右图:聚类后聚合在一起的品种集中在蓝色的方框中。

3.4测试中增强

对于分类问题,Dieleman[钉】提出了测试中增强(test.timeaugmentation,TTA)的方法,通过对一些生成样本的结果做平均来提高准确率。从图3.4所示的误差点可以看出,对于同一个物体的不同朝向的输入,某些朝向的结果可能产生离群的结果。由此可见,通过测试中增强,使用某种对离群点鲁棒的方法进行平均(例如取中位数,即1模平均),将有助于提高结果的精度。

对于一个测试物体S,随机生成一些旋转矩阵R(i=1….,m)作用在上面对其进行增强。然后将得到的m个对应的体素表示Ⅵ输入网络系统。对这m个体素表示分别进行分类,然后用它们的结果采用多数投票的方式决定最终的品种预测,并把这些体素数据放入相应的那个回归网络。接下来,就得到了m个回归预测的朝向也,下面要做的是将它们映射到S原来所在的标架,得到

第3章基于卷积网络的方法

图3.4使用10个回归网络时的误差分布(单位:度)

注:蓝色曲线为误差的累积分布函数。小圆圈代表了不同物体不同摆放姿态的预测误差。这

里从测试集中采样了10个物体。同样颜色的圆圈代表的结果来自同一物体的不同姿态。Ui=R_1讧。通过最小化如下目标函数,可以得到更好的预测11+。

u4=argmin怕I阻∑么(u,ui)

i=1

在现有工作中,Weiszfeld算法【48】以迭代的策略解决这一优化问题。然后,在这里可以使用如下的弱化版本替代原问题:

u+=argminuJ,J:1m∑Z(uj,ut).t=1

该问题更易求解且有明显效果。

12

第4章实验

第4章实验

4.1方法实现

实验数据为十个品种的常见物体,选取自普林斯顿大学的ModelNet[4j】数据集。这些物体都具有无歧义的正朝向。每个品种包含100个物体,随机分为训练集(80个)和测试集(20个)。每一个训练物体被旋转了100次以进行数据增强。测试物体则被旋转了20次,用于研究本方法对物体输入朝向的鲁棒性。图4.1展示了测试集中的一些物体。本文汇报的所有实验结果都已经过一台台式计算机的测试,该计算机搭载有一颗Intel(R)Core(TM)i5-4570CPU@3.20GHz处理器,8GB内存及一颗NVIDIAGeForceGTX760显卡。

在输入网络前,本方法首先将三维物体表达为24×24×24的格点0.1体素。回归网络的结构简要绘制在图3.2。网络的开始是三个卷积层,每层后面各有一层rectifiedlinear单元(ReLU)。然后是两个全连接层。第一个全连接层上使用了dropout[491。最后一层有三个输出单元,对应三维朝向向量的三个元素。这样一个网络包含大概1.06×107个浮点参数,消耗42.6MB(兆字节)内存。分类网络的结构类似。具体的网络结构如表4.1和表4.2所示。这些网络的实现基于深度学习开发框架Caffet确】和GPU加速。

在训练得到分类和回归网络后,计算得出形状品种的距离度量矩阵。基于该距离度量,使用聚合聚类算法,将10个物体品种分为5组。(在这里决定聚类为5组是经验决定的。直观上,聚成的组的个数越少,干扰现象越强。)接下来,使用相同的网络结构训练新的回归网络,最终节省了一半的回归网络。四足,轮的物体品种被聚为一组(即小汽车、椅子、狗和桌子),杯状的物体被聚为一组(即浴缸和杯子,该组也包括飞机)。由于一个回归网络消耗42.6MB内存,而10个网络被减少到5个,因此大约节省了213MB内存。距离度量矩阵中错误率统计使用的阈值为15。,这是一个对于大多数图形学和机器人学问题都足够的阈值。距离矩阵和聚类的结果如图3.3所示。

分类网络的训练遍历了8次训练集,得到了95.6%的准确率。每个回归网络的训练大约遍历了30次训练集。最终整个系统(包含分类网络和回归网络)的测试正确率列在表4.3中。以度数度量的误差分布限制在图3.4中。使用了测试中增强的结果也列在了表4.3中。实验中每个物体被旋转了10次,将精度提高了6%.另外,如果回归网络输出了退化的结果,即模长为0的向量,则使用测试中增强可以得到合理的结果(事实上实验中未出现这种退化情况)。

13

14

第4章实验表4.1回归网络的结构注:Conv表示卷积层。FC表示全连接层。表4.2分类网络的结构。

第4章实验

撼袋逮淀汰9譬管矽,。r洳秘豳糯油◇◇略@◇富量萄譬毒霞Z曩Y囊蓼静爹爹静童囊0厶奎。露叁譬基渣曩肇誊肇髓磷

图4.1测试集中的物体样例

注:均处于本方法预测得到的正朝向(使用5个回归网络,无测试中增强)。

4.2结果分析

4.2.1干扰现象

对于两组不同的物体品种,使用相同的网络结构(如表4.1)做回归实验,通过对比其学习过程可以证明干扰现象的影响。甲组包含两个物体品种:飞机和人。乙组包含四个使用本方法聚类在一起的物体品种:小汽车、椅子、狗和桌子。网络在这两组上的学习过程如图4.2所示。最终两组上的训练损失函数值接近,但甲组的测试损失明显比乙组高。具体来说,甲组的测试集上得到了0.713的准确率而乙组的测试集上得到了0.861。但从表4.3的第一行可以推断二者应当接近。由此可以得出结论,强烈的干扰现象导致甲组的泛化能力较差,而对于自动聚类得到的乙组,这种影响要小得多。这也说明,聚类的策略不能任意选取。4.2.2网络可视化

图4.3展示了回归网路(由‘四足/轮’物体组训练得到)的第一个卷积层学习到的卷积核。从中可见网络学习到了一系列具有方向和频率选择性的卷积核,可以提取出表面、边角等低层几何信息。

这里借鉴Zeilereta1.【引】的方法,将网络对体素网格不同部分的依赖程度进行可视化。通过对各个体素的周围掏空一个7×7×7的立方体来对数据进行扰动,然后将扰动后的数据输入回归网络计算朝向,与真实值比较,计算角度误差。通过以上操作可以度量网络对掏空部分的敏感性。如图4.4所示,在人体模型上

1气

第4章实验

Nets一10Nets-10(TTA)Nets一5

0.993

0.965

0.830

0。920

0.943

0.993

1.000

0.923

0.755

0.893

0.9210.9300.8930.7930.81O0.8800.9050.9750。7780.5280.8580.835Nets-5(TTA)0.9830.9500.8300.8230.9250.9731.0000.8750.7550.8930.901飞祝浴缸自行车小汽车椅子杯子桌子狗水果人平均值0.9600.9250.7930.9080.8980.9300.9900。8450.5280.8550.863

表4.3不同设定情况下整个系统的精确度

注:Z(u,Q)<15。的测试样例计为正确。Nets一10是包含lo个回归网络的系统,每个回归

网络对应一个物体品种。Nets.5是包含5个回归网络的系统,每个回归网络对应一个物体品种组。TTA是使用了测试中增强的系统。

训练的回归网络总是对躯干部分反应强烈,而对手臂、腿部以及手中持有的物体不敏感。这些例子表明,卷积网络学习到了对朝向具有协变性而对姿势具有不变性的高层特征。虽然训练中仅提供了正朝向作为监督信息,但是本系统获得了定位形状中具有语义的部分的能力。如果可以提供更多的训练监督信息,则可以学习到更具有语义性和信息量的特征。另外一个类似的例子如图4.5所示。4.2.3泛化能力

最后,本文通过对训练集中不存在的品种的物体进行正朝向的预测,来展示该数据驱动方法的泛化能力。如图4.6中的例子所示,本系统将鸟分类为飞机,钢琴分类为桌子,床分类为浴缸,房子分类为杯子。前三个模型正朝向估计正确但第四个失败了。说明本系统具有一定的泛化能力,但是对于新出现的物体品种,训练新的网络将得到更好的效果。

选取适当的卷积网络结构对问题的解决至关重要。然而在当前学术界,结构选取仍然是一个未解决的问题。我们试验了多种不同的网络结构,最终选取了如表4.1和表4.2的结构。

不同网络结构下的分类结构如表4.4所列。16

第4章实验

图4.2干扰现象

注:图中的学习曲线展示了不同迭代次数时损失函数的数值。左图:在不一致的品种(飞机

和人)上的训练情况。右图:在自动聚类在一起的品种(小汽车、椅子、狗和桌子)上训练的情况。在一致的物体品种上训练得到的测试损失函数值明显低于不一致物体品种上的情况。

不同网络结构下的回归结果如表4.6所列。所使用的网络结构如表4.5。

4.3比较

与已有工作相比,本系统可以处理更一般的物体品种。Fueta1.f1】的支撑面法基于如下的假设:人造的物体一般具有一个支撑面可以保持物体稳定,而且这个面位于物体的凸包上。然而,这种观察对于一些物体(特别是自然的物体)会失效。图4.7展示了几个这样的例子,在这些例子中本方法可以成功,表明了特征学习方法相比与人工设计特征的方法的优越性。Wangetal.【2】中提出的张量秩最小化的方法也有其局限。当物体上有一个比较大的部件与其总体的正朝向不一致时(如图4.8所示),这种方法则不能处理。得益于卷积网络的学习能力,本方法可以正确处理这些情况。

相比于其它方法,本方法在时间效率上也具有优势。Fueta1.【1】中提出的支撑面法包含两个主要的步骤:(一)计算形状的凸包以寻找候选的支撑面,(二)提取特征以评价候选支撑面。对于每一个物体,这两步大概要耗费5秒钟。张量低秩法【二】中的张量秩的极小化问题是一个高度非线性的问题,难以优化。该文中使用了一种遗传算法,每一个形状需要耗费时间1—2分钟。但是,卷积网络本身容易并行化的属性导致它在GPU的加速下计算十分快速。故而相比之下,本方法高效得多。另外,一批量的数据可以并发处理。具体的计时结果列在了表4.7中。综上所述,可以得出结论,本方法比已有方法有至少30倍的加速。17

第4章实验

序号

结构12+34C(6,64,2,3)

ReLUC(6,64,2,3)ReLUC(6,64,2,3)ReLUC(6,64,2,3)ReLU

C(5,256,2,0)

ReLUC(5,256,2,0)ReLUC(5,256,2,0)ReLUC(5,256,2,0)ReLU

FC(256)

ReLUFC(512)ReLUFC(512)ReLUC(4,256,1,0)ReLU

Dropout(0.5)

FC(10)Dropout(0.5、FC(10)FC(10)FC(512)ReLU

Dropout(0.5)

FC(10)

精度0.9450.9560.9350.950

表4.4不同分类网络结构下的分类精度

注:c(k,佗,s,P)表示有礼个卷积核的卷积层,卷积核大小为k×k,步长为s,补零部分宽

度为P。FC(n)表示诧个节点的全连接层。Dropout(r)表示dropout率为7’。各层按从输入到输出排列。木:最终选用的网络结构,具有最高的精度。

序号

结构1丰234C(6,64,2,3)

ReLUC(6,64,2,3)ReLUC(6,64,2,3)ReLUC(6,64,2,3)I沁LU

C(5,160,2,0)

ReLUc(5,160,2,0)ReLUc(5,160,2,0)ReLUC(5,160,2,0)ReLU

C(4,512,1,0)

ReLUC(4,512,1,0)ReLUC(4,512,1,0)ReLUC(4,512,1,0)ReLU

FC(1000)

ReLUFC(1000)ReLUFC(500)ReLUFC(500)ReLU

Dropout(0.5)

FC(10)

Tal埘FC(10)TanHFC(10)T{mHDropout(0.5)FC(500)ReLU

TanH

TanH

表4.5试验的回归网络结构注:木:最终选用的结构。

18

第4章实验

序号1+234

飞机0.9580.9530.9550.955

浴缸0.9630.9480.9530.973

自行车0.8350.81O0.8280.820

小汽车0.8980.9030.9100.920

椅子0.8580.8480.8200.843

杯子0.9380.9300.9180.928

桌子0.9850.9800.9750.968

狗0.8480.8700.8330.880

水果0.5700.5200.5450.533

人0.8430.815O.8150.840

平均值0.8700.8580.8540.866

表4.6不同网络结构下的回归精度

注:宰:最终选用的结构。

TTA体素化分类回归总计

l台0.008O.0140.0120.034

l是0.0780.0330.0390.150

表4.7Nets.5系统对每一个物体预测所用时间(单位:秒)

注:最后一行中,每一个测试物体都被增强了十次,这十个体素数据在同一个批次中被并发

计算。19

。鑫q囊嗡氐≯90蔫0。囔确9哆譬■‘◇●萨唾爹■力■.专‘f,冷≯夕食Vy≮?rC.I\‘yI’J-‘露≤i◇孥瞧囊0稳◇◇∥畛蠓哟◇潦◇黪辫;》黪纛。毒’■譬参\≮.:■一◆,严S~y蕾◆’梦心rr秭《灞0影囊蘩一妫一磐黪国翻豢孥∥渗蔫◇E、V吞9毒缠囊母~■兮、、哆q弋℃可9\≯▲

鬏嬲图4.3第一个卷积层的可视化糨帅

黛檗吣忿A

一一叠180

120

60

图4.4网络高级信息提取能力的可视化

注:在体素数据的不同位置进行掏空后,预测的结果会有不同。掏空后的预测误差(单位:

度)用颜色映射表示。体素颜色越热,表明网络对其附近的区域越敏感。在这些例子中,网络总是对姿态和朝向不同的人体模型的躯干部分反应强烈,表明对人体这一品种的三维模型训练的回归网络提取到了朝向和结构感知的特征。

20

眵皤曝

眵曝囔季

图4.5网络高级信息提取能力可视化的有一个例子

注:与图4.4相同,掏空后的预测误差(单位:度)通过颜色映射来表示。在这些例子中,网

络对桌面更敏感而对桌子腿的形状有一定的不变性。

掌+掌妒鑫

图4.6本方法的泛化能力

注:本方法可以对训练数据集中不存在的品种的物体进行正朝向估计,展现了本方法的泛化

能力。第一行的物体处于随机的朝向。第二行的物体处于Nets一5估计的朝向。前三个例子预测成功但第四个例子预测失败。21蕙生量肇

第4章实验

图4.7与支撑面法【{】的比较

注:本方法可以处理不存在支撑面或支撑面不在凸包上的物体。在每一组例子中,左图的物

体以随即朝向摆放,右图的物体以Nets.5预测的正确朝向摆放。其中船的模型不属于训练数据集,被分类为浴缸。

70585753

图4.8与张量低秩法[-q的比较

注:在每一对物体中,左边的处于Nets.5预测的正朝向,但是此时具有较高的张量秩;右边

的处于错误的朝向,但是张量秩较低。张量秩的数值标注在了物体下方。22

第5章总结与展望

第5章总结与展望

5.1总结

本文论述了一种数据驱动的,基于卷积网络的方法,用于估计三维物体的正朝向。得益于卷积网络的特征学习能力,该方法不仅可以处理人造物体,而且可以处理自然物体。我们的实验证实,数据驱动的方法在处理难以人工定义逻辑规则的问题时具有明显的优势。尤其是神经网络方法,由于其端到端的学习方式,可以自动提取特征而不依赖人工设计。另外,可视化的结果表明,当获得更多的有效信息时,卷积网络可以从三维形状中提取更具有语义的特征。

本方法使用了基于距离的聚类方法以减小内存消耗,使用了测试中增强方法以进一步提高精度。聚类方法可以减少213MB,即50%的内存消耗。但是牺牲了一些回归精度。测试中增强的方法会略微增加时间消耗,但可以将回归正确率提高6%。

最后,实验证实该方法相当高效。处理一个物体需要最低0.03秒,至多o.15秒的时间。对于其它一些几何处理任务,例如三维形状检索、匹配和注册,将此方法用作这些任务的预处理步骤,可以减小后续步骤中问题的搜索空间,从而提高问题的求解效率。同时,本方法的高效性不会带来明显的额外时间开销,从而加速这些几何处理任务的完成。

5.2展望

但是,在一些方面,该方法仍有改进的空间。

首先,该方法不如几何方法精确。对于放置规划等问题,正朝向估计结果中的微小误差可能导致失败的结果(例如被放置物品的损坏)。为此,我们可以尝试结合几何方法来提高本方法的精度。例如,如果物体存在支撑面,则可以在本方法结果的附近寻找该支撑面,从而得到一个语义上正确而且物理上精确的正朝向结果。

第二,由于神经网络本身高度非线性的特点,我们难以直接了解其本身的性质。可以考虑进行更多的可视化【jl】工作以从训练得到的模型中提取更有效和深入的信息,并对一些令人疑惑的问题给出答案,例如:这些网络为什么能得到有效的结果?为什么在飞机和浴缸中某一类一IziJII练的模型在另外一类上也有好的效果?

最后,可以考虑将本方法应用于机器人学的问题。在当前的机器人研究中,23

第5章总结与展望

深度相机(例如微软公司的Kinect、英特尔公司的RealSense)作为一种相对廉价的测距设备得到了广泛应用。深度相机可以采集RGBD多通道图像。在本方法的基础上稍加改动,即可对RGBD图像中的物体进行正朝向估计,从而将本方法用于机器人学的相关问题。24

参考文献

参考文献

[1】FuH,Cohen-OrD,DrorG,eta1.Uprightorientationofman-made

onobjects[C]//ACM.ACMTransactionsGraphics(TOG):volume27.[S.I.】:ACM,2008:42.

minimization[J].【2】WangWLiuX,LiuL.Uprightorientationof3dshapesviatensorrank

JournalofMechanicalScienceandTechnology.2014,28(7):2469-2477.

structures[C]//[3】BiasottiS,MariniS,MortaraM,eta1.3dshapematchingthroughtopological

Springer.DiscreteGeometryforComputerImagery.[S.I.]:Springer,2003:194-203.[4】IyerN,Jayanti

andfutureS,LouK,eta1.Three—dimensionalshapesearching:State-of-the-artreviewtrends[J].Computer-AidedDesign.2005,37(5):509--530.

J【5】TangelderWVeltkampRC.Asurveyofcontentbased3dshaperetrievalmethods[J].Mul—timediaToolsandApplications.2008,39(3):441--471.

anddiverse:Setevolutionforinspiring3dshape[6】6XuK,ZhangH,Cohen-OrD,eta1.Fit

ongalleries[J].ACMTransactions

[7】Jiang、‘LimM,ZhengGraphics(TOG).2012,31(4):57.objectsinaC,eta1.Learningtoplacenewscene[J].TheInternational

JournalofRoboticsResearch.2012,31(9):1021-1043.

[8】SidiO,vailKaickO,KleimanYeta1.UnsupervisedCO-segmentationofasetofshapesvia

descriptor-spacespectralclustering:volume30[M].【S.I.】:ACM,201

thatGrabs1.byEmploy—[9】A

ingGeekyWorld.TheRobotIntelligentlyAI[M/OL][03一May-2015].http://www.ageekyw。rld.com/the—robot—that—grabs—intelligently—by—employing—ai/.

【10】LiuZ,ZhangJ,LiuL.Uprightorientationof3dshapeswithconvolutionalnetworks[J].Graph—

icalModels.2016.

[11】XuK,KimVG,HuangQ,eta1.Data-drivenshapeanalysisandprocessing[J].Computer

GraphicsForum.2016.

[12】JacobsRA,JordanMI,NowlanSJ,eta1.Adaptivemixturesoflocalexperts[J].Neural

Computation.1991,3(1):79-87.

and[13】Ciocca

logisticG,CusanoC,SchettiniR.Imageorientationdetectionusinglbp—basedfeaturesregression[J].MultimediaToolsandApplications.2013,74(9):3013-3034.

on【14】LuminiA,NanniL.Detectorofimageorientationbased

86.bordacount[J].PatternRecognitionLetters.2006,27(3):180-1

[15】LuoJ,BoutellM.Automaticimageorientationdetectionviaconfidence-basedintegrationof

low.1evelandsemanticcues[J].PatternAnalysisandMachineIntelligence,IEEETransactions2S

参考文献

on.2005,27(5):715-726.

【16】WangYM,ZhangH.Detectingimageorientationbasedonlow—levelvisualcontent[J].Com—

puterVisionandImageUnderstanding.2004,93(3):328-346.

S.RotationInvariantSphericalHarmonicRepre-

Symposiumon[17】KazhdanM,FunkhouserT,Rusinkiewiczsentationof3DShapeDescriptors[C].EurographicsGeometryProcessing.

【S.I.]:The

[18】LinEurographicsAssociation,2003.CK,TaiWK.Automaticuprightorientationandgoodviewrecognitionfor3dman—made

models[J].PatternRecognition.2012,45(4):1524-1530.

【19】ZhangZ,GaneshA,LiangX,eta1.Tilt:Transforminvariantlow-ranktextures[J].Interna-

tionalJournalofComputerVision.2012,99(1):l_24.

[20】JinYWuQ,LiuL.Unsuperviseduprightorientationofman—mademodels[J].Graphical

Models.2012,74(4):99--108.

【21】PlemenosD,BenayadaM.Intelligentdisplayinscenemodeling.newtechniquestoautomat-

icallycomputegoodviews[C].Int.Conf.onComputerGraphics&Vision.[S.I.】,1996.

objectrecognition[C]//IEEE.

1.[S.I.】:【22]AbbasiS,MokhtarianF.Automaticviewselectioninmulti-viewPaRernRecognition,2000.Proceedings.15thInternationalConferenceon:volume

IEEE,2000:13—16.

[23】V缸luezPEFeixasM,SbertM,eta1.Automaticviewselectionusingviewpointentropy

anditsapplicationtoimage‘based

Forum:volumemodelling[C]//WileyOnlineLibrary.ComputerGraphics22.[S.I.】:WileyOnlineLibrary,2003:689-700.

【24】V缸quezP只Monchis

Springer.SmartE,NavazoI.Representativeviewsandpathsforvolumemodels[C]HGraphics.[S.I.】:Springer,2008:106_ll7.

F.Aunifiedinformation.theoreticframeworkforviewpoint

Transactionson【25】FeixasM,SbertM,Gonzfilezselectionandmesh

1.saliency[J].ACMAppliedPerception(TAP).2009,6(1):

[26】ZhangZ.1terativepointmatchingforregistrationoffree—formcurvesandsurfaces[J].Inter-

nationalJournalofComputerVision.1994,13(2):119—152.

[27】LeCunY

【28】LeCunYBengioYHintonG.DeepBoRouL,Bengiolearning[J].Nature.2015,521(7553):436_444.toYeta1.Gradient-basedlearningapplieddocumentrecogni—

tion[J].Proceedings

[29]KrizhevskyoftheIEEE.1998,86(11):2278-2324.A,SutskeverI,HintonGE.Imagenetclassificationwithdeepconvolutionalneural

inNeuralnetworks[C].Advances

[301InformationProcessingSystems.[S.I.】,2012:1097-1105.SermanetPLeCunY.Trafficsignrecognitionwithmulti-scaleconvolutional

IEEE.Neuralnetworks[C]//Networks(IJCNN),The2011InternationalJointConferenceon.【S.I.]:IEEE,2011:2809—2R1326

参考文献

[31]SunYChenYWangX,eta1.Deepleamingfacerepresentationby

inNeuralInformationProcessingjointidentification.verification[C].Advances

1996.Systems.[s.1.】,2014:1988—

【32】SunYWangX,TangX.Deepconvolutionalnetworkcascadeforfacialpoint

ondetection[C].ProceedingsoftheIEEEConference

2013:3476-3483.ComputerVisionandPatternRecognition.[S.1.】,

【33】TompsonJ,SteinM,LecunYeta1.Real-timecontinuousposerecoveryofhumanhandsusing

convolutionalnetworks[J].ACMTransactions

C.Deeppose:Human

ononGraphics.August2014,33.[34】ToshevA,Szegedyposeestimationviadeepneuralnetworks[C].Pro.ceedingsoftheIEEEConference

1653-1660.ComputerVisionandPattemRecognition.【S.1.],2014:

【35】GuptaS,GirshickR,Arbel五,ezP,eta1.LearningrichfeaturesfromRGB—Dimagesforobject

detectionandsegmentation[M].【S.1.】:Springer,2014:345-360.

segmentation[C].[36】LongJ,ShelhamerE,DarrellT.Fullyconvolutionalnetworksforsemantic

onProceedingsoftheIEEEConference

20l5:3431-3440.ComputerVisionandPatternRecognition.[S.1.],

【37】SilverD,HuangA,MaddisonC

andtreeJ,eta1.Masteringthegameofgowithdeepneuralnetworkssearch[J].Nature.2016,529(7587):484--489.

A.StudiesinComputationalIntelligenceSupervisedsequencelabellingwithRecur-[38】Graves

rentNeuralNetworks[M].【S.1.】:Springer,2012.

S,SchmidhuberJ.Longshort-term【39】Hochreiter

1735-1780.memory[J].Neuralcomputation.1997,9(8):

【40]Dosovitskiy

neuralA,TobiasSpringenbergJ,BroxT-Learningtogeneratechairswithconvolutional2015.networks[C].【S.1.】,June

[4l】SuH,MajiS,KalogerakisE,eta1.Multi—viewconvolutionalneural

15.networksfor3dshaperecognition[C].ICCV.[S.1.】,20

【42】ZhuZ,WangX,BaiS,eta1.Deepleamingrepresentationusingautoencoderfor3dshape

Analysis,andretrieval[C]//IEEE.Security,Pattem

ConferenceCybemetics(SPAC),2014Internationalon.【S.1.]:IEEE,2014:279-284.

[43]WuZ,SongS,KhoslaA,eta1.3dshapenets:Adeeprepresentationforvolumetricshape

IEEEConferenceonmodeling[C].The

【S.1.],June

[44】JiS,Xu2015。ComputerVisionandPattemRecognition(CVPR).WYangM,eta1.3dconvolutionalneuralnetworksforhumanactionrecognition[J].

PattemAnalysisandMachineIntelligence,IEEETransactionson.2013,35(1):221-231.[45]LeCunYA,BottouL,OrrGB,eta1.EfficientBackprop[M].[S.1.】:Springer,2012:9_48.27

参考文献

[46】HastieT'TibshiraniR,Friedman

enceJ.TheElementsofStatisticalLearning:DataMining,Infer-andPrediction[M].2nd.[S.I.】:Springer,2009.

S.Classifyingplanktonwithdeepneural[47】Dielemannetworks[M/OL】【03-Sept-2015].http:

//benanne.github.io/2015/03/17/plankton.html.

[48】HartleyR,TrumpfJ,DaiYeta1.Rotationaveraging[J].InternationalJournalofComputer

Vision.2013,103(3):267-305.

[49】SrivastavaN,HintonG,KrizhevskyA,etai.Dropout:Asimplewaytopreventneuralnet.

worksfrom

1958.overfittingU].TheJournalofMachineLearningResearch.2014,15(1):1929-

[50】JiaYShelhamerE,DonahueJ,eta1.Caffe:Convolutionalarchitectureforfastfeatureem.

oftheACMInternationalConferenceonbedding[C]//ACM.Proceedings

ACM,2014:675--678.Multimedia.[S.I.】:

[51]ZeilerMD,FergusR.Visualizingandunderstandingconvolutionalnetworks[M].[S.I.】:

Springer,2014:818-833.28

致谢

致谢

在中国科学技术大学完成本科和硕士学业的七年里,我所从事的学习和研究工作,都是在导师以及实验室、院系其他老师和同学的帮助和指导下进行的。在论文完成之际,请允许我对他们致以诚挚的谢意。

首先感谢导师刘利刚教授和张举勇副教授多年的指导和教诲。刘老师严谨的研究态度及忘我的工作精神,张老师认真细致的治学态度及宽广的胸怀,都将使我受益终身。

感谢班主任宋立功老师和黄稚新老师多年的关怀。感谢陈发来、邓建松、杨周旺、童伟华、李新、黄章进、陈雪锦、宋鹏、周世哲、康红梅、朱远鹏、刘源等老师,是他们的指导给我研究生阶段的科研工作打下了基础。

感谢邓方、傅孝明、李建方、刘敏、年先顺、潘茂东、汪志华、王春雪、王伟明、王伟娜、王睿曼、熊世勇、徐琳琳、徐文鹏、杨娇娇、杨天会、曾超、张建生、张晶晶、仲彦军等师兄师姐们的指点和照顾;感谢AsadKhan、单文、丁超、蒋罗、李浩、宋艳枝、王康、王少标、王士玮、吴芬芬、杨红庄、张主宇等几位同班同学,与你们的讨论使我受益良多;感谢柴双明、产海林、陈岩、杜冬、胡超、汲梦宇、李岩、李真熙、林宇鹏、陆炎、王婕、吴美娟、杨宏伟、张纯、郭玉东等师弟师妹,我们在图形与几何计算实验室共同学习共同生活,一起走过了这段难忘的岁月。

感谢科大,感谢一路走过来的兄弟姐妹们,在最宝贵的年华里,是你们伴随了我的成长。

最后,感谢家人一直以来的鼓励和支持,你们是我科研学习的坚强后盾。

刘子舜

2016年5月25曰29

30

致谢

在读期间发表的学术论文与取得的研究成果

在读期间发表的学术论文与取得的研究成果

已发表论文:

1.ZishunLiu,JuyongZhang,LigangLiu,UprightOrientationof3DShapeswithConvolutionalNetworks,GraphicalModels,2016.

2.JuyongZhang木,BailinDeng木,ZishunLiu,GiuseppePatan色,SoftenBouaziz,

KaiHormann,LigangLiu,LocalBarycentricCoordinates,ACMTransactionsonGraphics(Proc.SIGGRAPHAsia),33(6),2014.(木joint

Zhang,Ligangfirstauthors)3.ZishunLiu,ZhenxiLi,JuyongLiu,EuclideanandHamming

EmbeddingforImagePatchDescriptionwithConvolutional

bustFeaturesforComputerVision,CVPRWorkshop,2016.Networks,Ro—

发明专利:

1.张举勇,邓柏林,刘子舜,刘利刚,一种重心坐标的构建方法,申请公布

号:CNl04268936A3l

中圈料孽艘求大誊使用卷积网络估计三维形状的正朝向作者姓名:刘子舜学科专业:计算数学导师姓名:文lJ禾lJ网IJ教授完成时间:二。一六年五月硕士学位论文

UniversityofScienceandTechnologyofChinaAdissertationformaster’SdegreeUprightOrientationof3DShapes

withCOnVOIUtiOnaINetworks

Author:

Speciality:ZishunLiuComputationalMathematics

Supervisor:Prof.LigangLiu

FinishedTime:May,2016

中国科学技术大学学位论文原创性声明

本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。

作者签名:

中国科学技术大学学位论文授权使用声明

作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。

保密的学位论文在解密后也遵守此规定。

毗幻开

作堵隧鲁●●口能霍。一年)

.一,参一立手~一,埠导师签名:笾1刚幽导师签名:也!型!型J

签字日期:签字日期:鲨!i:量:兰仝

摘要

大多数三维物体都有一个自然向上的朝向,我们称之为正朝向。将物体摆正到其正朝向是一个重要的问题。首先,它有助于物体的识别。而且,这也是物体匹配、检索、形状分析等许多图形学问题中的第一个步骤。另外,这也有助于生成具有高识别度的物体预览图,来帮助三维形状数据库的管理。然而,由于各种各样的原因,现有数据库中的许多模型都没有处在其正朝向。

本文提出了一种基于机器学习的方法,使用三维卷积网络来预测物体的正朝向。当给定足够量的三维物体及其正朝向的方向向量时,该预测问题可以建模为回归问题。本方法借助于深度网络的学习能力,可以处理一般性的三维物体,而不需要对其形状做对称性、平行性等假设。除了网格模型外,本方法还可以处理能够被体素化的其他种类的数据,例如隐式曲面和点云。

与基于卷积网络的方法相比,过往方法的劣势在于它们受限于其预先假设的规则。但是,这些规则并不总是成立。因此,基于学习的方法更适用于一般的物体。尽管已有工作中已经使用了数据驱动的方法,但是其学习过程基于人工设计的稳定性、可见性和平行性等特征,这些特征对一般物体的正朝向估计并不适用。相比之下,神经网络通过端到端的学习方式,直接从原始数据中提取高层知识,而不依赖于物体的对称性等正规性质。

但是,单一的卷积网络难以对一般的物体都起作用。核心问题在于,每种物体的正朝向有其特殊的性质。这种情况在机器学习中被称为干扰现象,会导致泛化能力不足。也就是说,应该使用不同的策略来处理不同品种的物体。因此在本文提出的系统中使用了分治的方法。对于每一个形状,首先通过一个网络对其分类,然后才将它传入在对应品种上训练的正朝向回归网络进行预测。另外,本文使用了基于距离的聚类方法来减少所需网络的个数,以及测试中增强的方法来提高准确率。

丰富的实验展示了本方法的有效性和高效性。本系统在测试集上达到了90%以上的正确率,并对训练集以外的物体品种具有一定的泛化能力。并且实验表明本系统可以处理一些其它方法无能为力的情况。此外,利用本方法处理一个模型,平均时间不超过0.15秒,比现有方法高效得多。因此更方便应用于机器人学任务等需要即时反馈的问题。关键词:正朝向,数据驱动的形状分析,体素化,卷积网络

Abstract

ABSTRACT

usuallyposedintheiruprightorientations,whichmakesthemMostobjectsare

3Dshapesintheireasilyrecognizable.Also,itistheveryfirststeptoposethegiven

uprightorientationsinmanygraphicstasks,suchasmatching,retrievalandshapeanal-ysis.Moreover,it

managementcanbeusedtogeneraterecognizableobjectthumbnails,helpingthereasons,manymodelsinexistingof3Dshaperepositories.Duetovarious

databasesarenotintheiruprightorientation.

Inthispaper,wepresent

tionusing3DConvolutionalalearningbasedmethodtopredicttheuprightorienta-representationsof3DNetworks(ConvNets).Givenvoxel

taskshapesandcorrespondingorientationvectors,thisprediction

aCanbeformulatedasregressionproblem.Leveragingthelearningabilityofdeepneuralnetworks,general

cancategoriesof3Dshapes

metryorbehandledwithoutmakinganyassumptionssuchcanassym。parallelism.Besidesmeshmodels,theproposedmethod

candealwithshapesrepresentedinothertypesthat

clouds.bevoxelized,suchasimplicitsurfacesandpoint

methodsComparedwiththeConvNetsbasedapproach,existingarelimitedby

theirpredefinedrules.Nevertheless,thisobservationisnotapplicabletoallshapes.Thuslearningbasedmethodsareappreciatedtodealwithgeneralobjects.Althoughtheideaofdata.drivenhasbeenadoptedinexistingapproaches,thelearningprocedureisbasedonthehand.craftedfeaturessuchasstability,visibilityandparallelism,whicharenotsuitableforgeneral3Dshapes。Bycontrast,neural

ofend.to.endlearning.High-levelknowledges

relyingonnetworksworkinthestyleCanbecapturedfromrawdata,withoutobject’Sregularitysuchasexplicitsymmetry.

However,asingleConvNetdoesnotworkwellforalltypesofshapes.Thekeychallengeisthateachshapecategoryexhibitsparticularcharacteristic

orientation.Thisisreferredtoasontheuprightinterferenceeffectwhichwillleadtopoorgeneraliza-tion.Inotherwords,differentstrategiesshouldbetakento

Thus

by

onaahandlediversecategories.divide.and.conquerschemeisusedinOursystem.Eachshapeisfirstclassifiedarenetworkandthenfedintooneoftheorientationregressionnetworksthatdistancetrainedeachofthecategories.Furthermore,abasedclusteringmethodisproposedtoreducethenumberofnetworksandanoveltest-timeaugmentationprocedureisused

theaccuracy.toimprove

Abstract

Theefficiencyandeffectivenessofthisapproacharedemonstratedbyextensiveexperiments.Oursystemachievedtheaccuracyofmorethan90%onthetestdataandshowedthegeneralizationcapabilityofinferringuprightorientationsforshapesnotbelongingtothetrainingcategories.AlsoexperimentalresultsshowedthatOursystemiSabletohandleseveralcasesthatothermethodsfail.Moreover,estimationforeachshapetooknomorethan0.15Sonaverage,whichismuchfasterthanexistingapproaches,thusapplicabletoroboticstasksinwhichimmediatefeedbackisrequired.KeyWords:UprightOrientation,Data—DrivenShapeAnalysis,Voxelization,Convo-lutionalNetworks

目录

目录

摘要…………………………………………………….iAbstract…………………..………………………..……iii第1章绪论…………………………………………….1.1正朝向估计问题的研究背景………………………….…..1.2本文方法概述….…..............………..................112第2章相关工作…………………………………………52.1陶像的正朝向.……......................…..…...……..2.2三维模型的正朝向............….………..............…..2.3视角选取.……………….………….……………….2.4三维形状匹配、检索和注册……………..……….………2.5深度神经网络…………………………….…………..第3章基于卷积网络的方法………………………………3.2三维卷积网络....….…..................…….………...5556693.1系统概要.……........…………...….............…...993.3形状品种的聚类…………..………….…..…………..103.4测试中增强………………………………………….。ll第4章实验…………………………………………….】34.1方法实现.……………….………….……………….134.2结果分析………...………………………………….154.2.1干扰现象...................................................154.2.2网络可视化.….....................…...............。.....154.2.3泛化能力...................................................164.2.4网络结构...................................................164.3比较…….…..….…..................…….………...17第5章总结与展望………………………………………235.1总结............….…..............…...…….….......235.2展望.....…...........…......…....................…..23参考文献………………………………………………..25致谢…………………………………………………….29V

目录在读期间发表的学术论文与取得的研究成果…………………3l

图目录

图目录

1.1三维物体的正朝向估计….……………………...………1.2正朝向估计的应用...…...…............….........….….2.1三维物体正朝向估计的相关工作示意图………………….….2363.1系统概要…........…...…........................….....103。2回归网络的结构……………………………………….113.3通过基于错误率定义的距离度量进行物体品种的聚类…………..1l3.4使用10个回归网络时的误差分布(单位:度)……....-........124.1测试集中的物体样例……………………………………154.2于扰现象…………………………………….………174.3第一个卷积层的可视化….…..…..……………..………204.4网络高级信息提取能力的可视化…………………………..204.5网络高级信息提取能力可视化的有一个例子.…….…..………214.6本方法的泛化能力..…...……...........…..…..…..….2l4.7与支撑面法Ⅲ的比较..…..........…................……..224.8与张最低秩法[2】的比较………………………….………22

图目录

表目录

表目录

4.1同归网络的结构......…..............….…..-...…..-...・144.2分类网络的结构。.……………………………………・144.3不同设定情况下整个系统的精确度.......…………….……・164.4不同分类网络结构下的分类精度….….……………………184.5试验的同归网络结构..…..….......……・……・・………・184.6不同网络结构下的回归精度....….….・・・・・・・・・-・・・・・・・・・・・・・・194.7Nets.5系统对每一个物体预测所用时问(单位:秒)…...……・・19

表目录X

第1章绪论

第1章绪论

1.1正朝向估计问题的研究背景

数字几何模型是指数字化保存的三维形状几何信息。例如设计得到机械组件模型,动画角色模型,以及扫描得到的人体骨骼模型都属于数字几何模型。作为一种新型的数字媒体,数字几何模型已经被广泛应用于工业制造、数字娱乐以及医学诊疗等诸多领域。数字几何处理就是研究处理数字几何模型的方法的学科。数字几何处理过程的输入是数字几何模型。根据输出的不同,可以将数字几何处理方法分为两类:低层数字几何处理和高层数字几何处理。低层数字几何处理主要关注怎样从已有数字几何模型中得到更高质量的模型,包括网格模型去噪、重网格化、网格参数化等。高层数字几何处理又称为形状分析,着眼于怎样从输入模型的集合中提取有用的信息,包括形状对应、形状分类、形状协同处理竺弋于0

正朝向估计是高层数字几何处理中的一个问题。大多数三维物体都有一个自然向上的朝向(如图1.1),我们称之为正朝向。对于输入的任意姿态的三维物体,正朝向估计的目标是估计出该物体在当前姿态下正朝向所处的位置。然后,通过以及简单的旋转变换,就可以将该物体摆正到它的正朝向。

将物体摆正到其正朝向是一个重要的问题。首先,它有助于物体的识别。一般来说,当物体按照其正朝向摆放时,人们更容易识别该物体。因此,将物体摆正也有助于生成具有高识别度的物体预览图,来帮助三维形状数据库的管理。简单来说,在确定物体的正朝向后,可以选取侧面的视角生成预览图。这样的视角一般比俯视和仰视的视角具有更高的可识别度。而且,将物体旋转到正朝向也是许多图形学和机器人学问题中的第一个步骤,例如:物体匹配【3】3、检索【4,5】、形状分析[61和放置规划[71。展开来说,协同分割(如图1.2左)是形状分析中的一个问题,它首先需要同类物体处于相同的姿态,这样才有利于协同处理不同个体之间的对应。这就首先需要将物体按照其正朝向摆放。又如放置规划(如图1.2右),这是机器人学中的一个问题。人们期望服务型机器人可以帮助我们移动和放置物品。要完成这一任务,就需要机器人有判断物体应以何种姿态放置的能力,这就需要控制系统对物体的正朝向进行估计。综上所述,正朝向估计是一个重要的问题,在许多问题中都有应用。

由于各种各样的原因(例如建模或扫描系统的不同),现有数据库中的许多模型都没有处在其正朝向。而在放置规划中,机器人面对的物体所处的姿态也不

第1章绪论

图1.1三维物体的正朝向估计

一定处于其正朝向。这些需求已经催生了一些研究工作来解决这一问题。但是这些方法往往受限于其先验假设,适用范围小,处理一个模型要耗费数秒,工作效率低。因此,更快速有效的方法有待提出。

1.2本文方法概述

本文提出了一种基于机器学习的方法,使用三维卷积网络(convolutionalnetworks,ConvNets)来预测物体的正朝向[∞】。当给定足够量的三维物体及其正朝向的方向向量时,该预测问题可以建模为回归问题。本方法借助于深度网络的学习能力,可以处理一般性的三维物体,而不需要对其形状做对称性、平行性等假设。除了网格模型外,本方法还可以处理能够被体素化的其他种类的数据,例如隐式曲面和点云。

基于机器学习的方法,或者说数据驱动方法【¨】,与非数据驱动方法的区别在于,后者以人工定义的逻辑规则完成任务,而前者从数据中寻找问题的规律。非数据驱动的方法受限于其预先假设的规则,如果假设的规则不成立,则方法失败,这就是它们的劣势所在。例如,Fueta1.【1】提出的支撑面法基于如下的观察:人造物体一般具有一个能够保持自身稳定的支撑面。但是,这一观察并不总是成立,特别是对于自然的物体。因此,基于学习的方法,更适用于一般的物体。基于学习的方法主要包含两个阶段:训练阶段和测试阶段。训练阶段旨在从数据中发现规律,使用的数据集称为训练集。测试阶段就是检验训练得到的规律的正确性,使用的数据集称为测试集。机器学习方法在训练集上的表现良好并不能保证2

第1章绪论

图1.2正朝向估计的应用

注:在形状分析(左图,协同分割,图片来自Sidieta1.【8】)和放置规划(右图,图片来自A

GeekyWorld[9】)中,正朝向估计都是重要的一步。

该方法在新数据上有良好效果。我们更关心该方法所发现的规律在测试集上的正确率。测试精度高,则称该方法泛化能力强。

深度神经网络方法是近些年受到广泛关注一种机器学习方法,在很多领域取得了显著效果。本文使用的卷积网络就是一种典型的深度神经网络。神经网络方法区别于其他机器学习方法的一点在于,其他方法需要人工提取特征作为训练数据,而神经网络方法可以将原始数据作为训练输入,自动学习特征。具体来说,尽管支撑面法【|】中已经使用了数据驱动的方法,但是其学习过程基于人工设计的特征,例如:稳定性、可见性和平行性,这些特征对于规整的人造物体一般定义明确且合理,而对一般的自然物体并不十分有效。相比之下,神经网络通过端到端(输入数据端到最终结果端)的学习方式,直接从原始数据中提取高层知识,而不依赖于物体的对称性等正规性质。

但是,单一的卷积网络难以对一般的物体都起作用。核心问题在于,每种物体的正朝向有其特殊的性质。例如小汽车是“水平的”但白行车是“竖直的”。这种情况在机器学习中被称为干扰现象【位】,会导致泛化能力不足。也就是说,应该使用不同的策略来处理不同品种的物体。因此在本文提出的系统中使用了分治的方法。对于每一个形状,首先通过一个网络对其分类,然后才将它传入在对应品种上训练的正朝向回归网络进行预测。另外,本文使用了基于距离的聚类方法来减少所需网络的个数,以及测试中增强的方法来提高准确率。

聚类是一个经典的机器学习问题,目的是将给定的一组样本分成若干个类,力求类内尽量相似而类间有明显区别。在本方法中,为了减少所需回归网络的数量,进而减少内存消耗,我们采用了聚类的方法。通过定义某种度量,来计算任3

第l章绪论

意两个物体品种之间的相似度。最终,相似的物体被聚在一起,使用同一回归网络处理;不相似的物体在不同的类,避免相互干扰。第4章中的实验将会证明,这种距离的度量是非平凡的,不恰当的聚类会带来严重的干扰现象。

数据增强是一种机器学习中常用的提高准确率的方法。比较常用的是训练数据的增强。也就是为了避免训练集所包含的样本多样性不足,通过其他方法生成更多的数据用于训练。在本问题中,为了避免训练集所包含的物体朝向单一,我们将物体随机旋转若干角度,以达到增加样本多样性,提高泛化能力的目的。在这里,我们还使用较为少见的测试中增强。即,在测试阶段,将待测试样本变换成多种形式,然后对不同的形式分别测试,最后综合评价这些结果,得到测试结论。这样会牺牲一定的测试时间,但可以加强结果的稳定性,提高测试精度。

丰富的实验展示了本方法的有效性和高效性。本系统在测试集上达到了90%以上的正确率,并对训练集以外的物体品种具有一定的泛化能力。并且实验表明本系统可以处理一些其它方法无能为力的情况。此外,利用本方法处理一个模型,平均时间不超过0.15秒,比现有方法高效得多。因此更方便应用于机器人学任务等需要即时反馈的问题。

本文中论述的方法的创新点如下:

・得益于卷积网络的学习能力,本方法可以处理具有一般性的物体,包括非对称的物体。

・相比于已有方法,本方法有至少30倍的加速。

下文结构如下:第2章简要论述了一些相关工作。第3章论述本文提出的卷积网络系统。第4章展示了实验结果以及与相关工作的比较。最后,在第5章给出了本文的结论以及下一步改进本方法的一些方向。4

第2章相关工作

第2章相关工作

2.1图像的正朝向

未知朝向的图像与其正确朝向可能相差的角度有如下四种情况:0。,90。,180。,或270。[13-i6】.因此,图像的朝向估计问题可以建模为四类分类问题。大多数已有工作的策略是:首先对每种可能的朝向提取一个高维特征,然后在这个特征的集合上训练支持向量机(supportvectormachines,SVM)t14,16】或其他分类器㈣来估计正确的朝向。然而对于一般的三维物体来说,其朝向空间是二维且连续的,难以将其归纳为几个候选方向。因此三维物体的正朝向估计问题适宜建模为回归问题而不是分类问题。

2.2三维模型的正朝向

在计算机图形学领域,已经出现了一些工作来解决物体正朝向估计问题或形状对齐问题。主成分分析法(principalcomponentanalysis,PCA)It7】是一种常

et用方法,但该方法不精确,且对许多物体不鲁棒,尤其是非对称物体。Fua1.吲

和Lineta1.【|8】中使用了支撑面法来做正朝向估计,即通过比较一系列潜在的能稳定支撑物体的面来确定正朝向。这类方法对大多数人造物体有效,但是不适用于支撑面不明确的自然物体。另外一类方法基于如下的观察:三维形状处于正朝向时其空间坐标对应的矩阵具有较低的秩。受到Zhangeta1.【旧】的启发,Jineta1.【20】提出了正朝向估计的矩阵低秩法,即通过使得物体在各个坐标平面上的

et投影形状构成的矩阵的秩降低,来使物体接近其正朝向。Wanga1.【2】提出了正

朝向估计的张量低秩法,即最小化三维形状的体素表示的张量秩的方法。这两种低秩方法都可以处理具有一定对称性的物体。但是,以上所有方法都不能处理一般性的物体(相见第4.3节)。

2.3视角选取

从不同视角观察三维物体,其中有一个最直观、最具有信息量的视角,称为代表性视角。选取代表性视角有助于进行很多几何处理工作,例如形状检索。大多数方法使用三维物体的几何信息进行代表性视角的选取,例如可见多边形个数12‘】和剪影轮廓【2纠。一些工作基于信息论,例如视角熵(viewpointentropy,M),多尺度熵(multi.scaleentropy,【24】)或视角共信息(viewpointmutualinformation,网)。将物体用本方法摆正在正朝向,将有助于选取有代表性的视角。气

第2章相关工作

,触㈨≯

哪口口I

口目妥

图2.1三维物体正朝向估计的相关工作示意图

注:左图:支撑面法(图片来自Fuetal.【1】),中图:矩阵低秩法(图片来自Jinetal.【!o】)。右

图:张量低秩法(图片来自Wangeta1.[2】)。

2.4三维形状匹配、检索和注册

三维形状的检索[4,51和匹配【3】方法都是为了在物体数据库中找到与指定形状相似的物体。三维物体的注册[16】方法是为了在多个物体间找到对应的部分。这些技术都在试图设计某种鲁棒而有区分度的方法,来度量不同物体(或部分物体)之间的相似度。这种度量需要对物体的各种变换(刚性或非刚性)具有鲁棒性【吲。为了解决这一问题,大多数方法都要对模型进行预先对齐,即放置在一个具有一般性的标架内。这种预先对齐一般使用PCA方法。正朝向估计的方法可以对物体估计一致的朝向,进而将物体对齐的问题从两个自由度简化到一个自由度,从而帮助该问题的解决。

2.5深度神经网络

人工神经网络(artificialneuralnetwork,砧州)是一种模仿生物神经网络的机器学习模型,其中包括卷积网络,近年来,由于可供计算的数据越来越丰富,计算设备性能越来越高,深度神经网络方法(深度学习,【27】)强大的学习能力被挖掘出来,并在很多领域取得了突破。

卷积网络在计算机视觉的问题上已经展现出了压倒性的优势。这些问题以RGB或RGBD二维图像为输入,对输入图像进行某种程度语义分析。一项较早的工作是手写数字识别系统LeNet.5【281,该系统在MNIST数据集上取得了非常好的效果。Krizhevskyetal.【29】使用卷积网络对一般的图像的进行分类,在ImageNet数据集取得了高出其他方法10%的突破。卷积网络还被用于交通标识识别【3。】、人脸识别【:;l】、人脸关键点定位[321、手势识别【331、人体动作识别[341、物体检测圈、图像分割冈等。相对于全连接的多层感知机网络结构

第2章相关工作

在其他领域,深度神经网络的应用也带来了突破性的进展。在智能对弈领域,基于神经网络的AlphaGo[弦】取得了举世瞩目的成果。在自然语言处理领域,适于处理时序信息的RNN(recurrentneuralnetwork,㈣)和LSTM(10ngshort.termmemory,【39】)取得了突出效果。LSTM被可用于语音识别、机器翻译、图文翻译等多种自然语言处理问题。

当前已经有一些工作以深度学习的方法处理三维物体相关的问题,例如分类、识别和检索。但是,绝大多数这些工作将三维物体看作一系列不同视角下的色彩图、深度图或二者的结合【{¨坨】,而忽略了不同视角图像之间的三维联系。直接使用体数据来表示三维物体可以克服这一缺点。Wueta1.[43】是第一项将体数据作为神经网络的输入的工作,它将三维形状表示为三维格点上的二值概率分布,使用深度卷积置信网络(convolutionaldeepbeliefnetwork,CDBN),在物体分类问题上得到了好的效果。Jietal.【“】提出了另外一种三维卷积网络,将时问看作第三个维度,进行视频中的人体动作识别。该三维卷积网络与本文的三维卷积网络有明显不同,不再赘述。7

第2章相关工作8

第3章基于卷积网络的方法

第3章基于卷积网络的方法

考虑n个品种的三维物体G(i=1….,礼),正朝向的估计问题可以建模为一个回归问题。给定一定数量的三维物体的体素表示V及其对应的正朝向单位向量U,可以使用包含未知参数卢的函数u≈.后(V)来拟合这些数据。

尽管三维卷积网络可以直接应用到这一问题上,但是,不同品种物体的正朝向各有其特殊的性质,放在一起进行学习会产生严重的干扰现象进而导致泛化能力过差【12】。既然难以训练对所有n个形状品种适用的网络,这里使用分治的方法进行学习,即对不同的物体品种分别进行学习。自然地,可以分别训练T/,个回归网络。另外,需要训练一个分类网络作为阀门以决定输入数据将被传入哪一个回归网络。本系统的测试阶段工作流程如图3.1所示。

3.2三维卷积网络

这里使用了标准的卷积网络进行回归和分类。

回归网络(如图3.2)的输入是三维物体的体素表示,输出是预测正朝向的三维向量。如图3.2所示,回归网络由一定数量的三维卷积层和全连接层组成,二者都是线性变换,每一个线性变换层后面都有一层非线性激活单元。在输出层使用的激活单元为双曲正切函数tanh(.)。当输出值接近1或一1时,学习速率会变慢(因为正切函数的输出在这附近时梯度非常小),为了避免这种情况,我们把朝向向量U的数值乘以了0.5进行放缩。在其它各层,选取rectifier[4j】

ReLU(x)=max(O,z)

作为激活函数。最终使用批次大小为Ⅳ的批量梯度下降法,通过最小化如下的欧式损失函数来训练整个网络。

.Ⅳ

Loss=丽1∑慨一Hi幢

其中fli是实际的三维朝向方向向量,U;是对应的回归结果。

分类网络的结构与回归网络类似。不同之处在于其最后~个全连接层的输出指向了n端的softmax分类器,以生成在n个品种标签上的概率分布。相应地,最终的损失函数是multinomiallogisticloss。9

第3章基于卷积网络的方法

图3.1系统概要

注:输入数据传输通过分类网络(蓝色部分)后可以预测得到一个分类结果i∈.[1….,礼)。

之后,输入数据又被传入第i个回归网络。回归网络输出的三维向量即为预测的正朝向方向向量。以上礼+1个网络的训练互不依赖,可以相互独立地训练得到。

3.3形状品种的聚类

尽管不同的物体品种各有其特殊之处,但是一些品种(如桌子和椅子)的特性是一致的,可以通过类似的策略来预测正朝向。这样的品种可以聚类在一组,使用同一个回归网络进行预测。如此一来,可以去除冗余的网络,节省内存消耗。

然而,要确定哪些品种是一致的,这并不是一个平凡的问题。如果在不一致的品种上训练,结果的精度将远低于在各个品种上分别训练的结果。本文采用了一种基于品种之间距离度量的方法,这种距离度量由各个回归网络在各个品种上的错误率来确定。

为了定义距离度量,需要在所有礼个物体品种上测试这n个回归网络,以得到一个方阵E,其中E(i,J)是回归网络亿在物体品种Cj上的错误率(错误即/(u,d)大于某个闽值)。然后,计算D=(E+ET)/2得到最终的距离矩阵,其中D(i,J)表示物体品种已和Cf之间的距离。该值越小,说明这两个品种物体的正朝向越容易被相同参数的网络估计出来。

得到距离矩阵之后,使用层级聚合聚类算法【46】建立聚类树,然后人为决定切割聚类树的位置,则可以得到一定数量的物体品种组。聚合在一起的物体组需要重新训练回归网络,而未聚合的物体品种对应的回归网络可以保持不变。另外,分类网络也不需要重新训练。

1n

第3章基于卷积网络的方法

24a

图3.2回归网络的结构

§冬杂邈繁窝孥≮繁

己胡

浴缸

自行车

小汽车

椅子

杯子

水果

桌子飞机浴缸杯子自行车小汽车椅子狗桌子水果人誉警惫誊妻爸弩繁警≮

图3.3通过基于错误率定义的距离度量进行物体品种的聚类

注:左图:距离矩阵。右图:聚类后聚合在一起的品种集中在蓝色的方框中。

3.4测试中增强

对于分类问题,Dieleman[钉】提出了测试中增强(test.timeaugmentation,TTA)的方法,通过对一些生成样本的结果做平均来提高准确率。从图3.4所示的误差点可以看出,对于同一个物体的不同朝向的输入,某些朝向的结果可能产生离群的结果。由此可见,通过测试中增强,使用某种对离群点鲁棒的方法进行平均(例如取中位数,即1模平均),将有助于提高结果的精度。

对于一个测试物体S,随机生成一些旋转矩阵R(i=1….,m)作用在上面对其进行增强。然后将得到的m个对应的体素表示Ⅵ输入网络系统。对这m个体素表示分别进行分类,然后用它们的结果采用多数投票的方式决定最终的品种预测,并把这些体素数据放入相应的那个回归网络。接下来,就得到了m个回归预测的朝向也,下面要做的是将它们映射到S原来所在的标架,得到

第3章基于卷积网络的方法

图3.4使用10个回归网络时的误差分布(单位:度)

注:蓝色曲线为误差的累积分布函数。小圆圈代表了不同物体不同摆放姿态的预测误差。这

里从测试集中采样了10个物体。同样颜色的圆圈代表的结果来自同一物体的不同姿态。Ui=R_1讧。通过最小化如下目标函数,可以得到更好的预测11+。

u4=argmin怕I阻∑么(u,ui)

i=1

在现有工作中,Weiszfeld算法【48】以迭代的策略解决这一优化问题。然后,在这里可以使用如下的弱化版本替代原问题:

u+=argminuJ,J:1m∑Z(uj,ut).t=1

该问题更易求解且有明显效果。

12

第4章实验

第4章实验

4.1方法实现

实验数据为十个品种的常见物体,选取自普林斯顿大学的ModelNet[4j】数据集。这些物体都具有无歧义的正朝向。每个品种包含100个物体,随机分为训练集(80个)和测试集(20个)。每一个训练物体被旋转了100次以进行数据增强。测试物体则被旋转了20次,用于研究本方法对物体输入朝向的鲁棒性。图4.1展示了测试集中的一些物体。本文汇报的所有实验结果都已经过一台台式计算机的测试,该计算机搭载有一颗Intel(R)Core(TM)i5-4570CPU@3.20GHz处理器,8GB内存及一颗NVIDIAGeForceGTX760显卡。

在输入网络前,本方法首先将三维物体表达为24×24×24的格点0.1体素。回归网络的结构简要绘制在图3.2。网络的开始是三个卷积层,每层后面各有一层rectifiedlinear单元(ReLU)。然后是两个全连接层。第一个全连接层上使用了dropout[491。最后一层有三个输出单元,对应三维朝向向量的三个元素。这样一个网络包含大概1.06×107个浮点参数,消耗42.6MB(兆字节)内存。分类网络的结构类似。具体的网络结构如表4.1和表4.2所示。这些网络的实现基于深度学习开发框架Caffet确】和GPU加速。

在训练得到分类和回归网络后,计算得出形状品种的距离度量矩阵。基于该距离度量,使用聚合聚类算法,将10个物体品种分为5组。(在这里决定聚类为5组是经验决定的。直观上,聚成的组的个数越少,干扰现象越强。)接下来,使用相同的网络结构训练新的回归网络,最终节省了一半的回归网络。四足,轮的物体品种被聚为一组(即小汽车、椅子、狗和桌子),杯状的物体被聚为一组(即浴缸和杯子,该组也包括飞机)。由于一个回归网络消耗42.6MB内存,而10个网络被减少到5个,因此大约节省了213MB内存。距离度量矩阵中错误率统计使用的阈值为15。,这是一个对于大多数图形学和机器人学问题都足够的阈值。距离矩阵和聚类的结果如图3.3所示。

分类网络的训练遍历了8次训练集,得到了95.6%的准确率。每个回归网络的训练大约遍历了30次训练集。最终整个系统(包含分类网络和回归网络)的测试正确率列在表4.3中。以度数度量的误差分布限制在图3.4中。使用了测试中增强的结果也列在了表4.3中。实验中每个物体被旋转了10次,将精度提高了6%.另外,如果回归网络输出了退化的结果,即模长为0的向量,则使用测试中增强可以得到合理的结果(事实上实验中未出现这种退化情况)。

13

14

第4章实验表4.1回归网络的结构注:Conv表示卷积层。FC表示全连接层。表4.2分类网络的结构。

第4章实验

撼袋逮淀汰9譬管矽,。r洳秘豳糯油◇◇略@◇富量萄譬毒霞Z曩Y囊蓼静爹爹静童囊0厶奎。露叁譬基渣曩肇誊肇髓磷

图4.1测试集中的物体样例

注:均处于本方法预测得到的正朝向(使用5个回归网络,无测试中增强)。

4.2结果分析

4.2.1干扰现象

对于两组不同的物体品种,使用相同的网络结构(如表4.1)做回归实验,通过对比其学习过程可以证明干扰现象的影响。甲组包含两个物体品种:飞机和人。乙组包含四个使用本方法聚类在一起的物体品种:小汽车、椅子、狗和桌子。网络在这两组上的学习过程如图4.2所示。最终两组上的训练损失函数值接近,但甲组的测试损失明显比乙组高。具体来说,甲组的测试集上得到了0.713的准确率而乙组的测试集上得到了0.861。但从表4.3的第一行可以推断二者应当接近。由此可以得出结论,强烈的干扰现象导致甲组的泛化能力较差,而对于自动聚类得到的乙组,这种影响要小得多。这也说明,聚类的策略不能任意选取。4.2.2网络可视化

图4.3展示了回归网路(由‘四足/轮’物体组训练得到)的第一个卷积层学习到的卷积核。从中可见网络学习到了一系列具有方向和频率选择性的卷积核,可以提取出表面、边角等低层几何信息。

这里借鉴Zeilereta1.【引】的方法,将网络对体素网格不同部分的依赖程度进行可视化。通过对各个体素的周围掏空一个7×7×7的立方体来对数据进行扰动,然后将扰动后的数据输入回归网络计算朝向,与真实值比较,计算角度误差。通过以上操作可以度量网络对掏空部分的敏感性。如图4.4所示,在人体模型上

1气

第4章实验

Nets一10Nets-10(TTA)Nets一5

0.993

0.965

0.830

0。920

0.943

0.993

1.000

0.923

0.755

0.893

0.9210.9300.8930.7930.81O0.8800.9050.9750。7780.5280.8580.835Nets-5(TTA)0.9830.9500.8300.8230.9250.9731.0000.8750.7550.8930.901飞祝浴缸自行车小汽车椅子杯子桌子狗水果人平均值0.9600.9250.7930.9080.8980.9300.9900。8450.5280.8550.863

表4.3不同设定情况下整个系统的精确度

注:Z(u,Q)<15。的测试样例计为正确。Nets一10是包含lo个回归网络的系统,每个回归

网络对应一个物体品种。Nets.5是包含5个回归网络的系统,每个回归网络对应一个物体品种组。TTA是使用了测试中增强的系统。

训练的回归网络总是对躯干部分反应强烈,而对手臂、腿部以及手中持有的物体不敏感。这些例子表明,卷积网络学习到了对朝向具有协变性而对姿势具有不变性的高层特征。虽然训练中仅提供了正朝向作为监督信息,但是本系统获得了定位形状中具有语义的部分的能力。如果可以提供更多的训练监督信息,则可以学习到更具有语义性和信息量的特征。另外一个类似的例子如图4.5所示。4.2.3泛化能力

最后,本文通过对训练集中不存在的品种的物体进行正朝向的预测,来展示该数据驱动方法的泛化能力。如图4.6中的例子所示,本系统将鸟分类为飞机,钢琴分类为桌子,床分类为浴缸,房子分类为杯子。前三个模型正朝向估计正确但第四个失败了。说明本系统具有一定的泛化能力,但是对于新出现的物体品种,训练新的网络将得到更好的效果。

选取适当的卷积网络结构对问题的解决至关重要。然而在当前学术界,结构选取仍然是一个未解决的问题。我们试验了多种不同的网络结构,最终选取了如表4.1和表4.2的结构。

不同网络结构下的分类结构如表4.4所列。16

第4章实验

图4.2干扰现象

注:图中的学习曲线展示了不同迭代次数时损失函数的数值。左图:在不一致的品种(飞机

和人)上的训练情况。右图:在自动聚类在一起的品种(小汽车、椅子、狗和桌子)上训练的情况。在一致的物体品种上训练得到的测试损失函数值明显低于不一致物体品种上的情况。

不同网络结构下的回归结果如表4.6所列。所使用的网络结构如表4.5。

4.3比较

与已有工作相比,本系统可以处理更一般的物体品种。Fueta1.f1】的支撑面法基于如下的假设:人造的物体一般具有一个支撑面可以保持物体稳定,而且这个面位于物体的凸包上。然而,这种观察对于一些物体(特别是自然的物体)会失效。图4.7展示了几个这样的例子,在这些例子中本方法可以成功,表明了特征学习方法相比与人工设计特征的方法的优越性。Wangetal.【2】中提出的张量秩最小化的方法也有其局限。当物体上有一个比较大的部件与其总体的正朝向不一致时(如图4.8所示),这种方法则不能处理。得益于卷积网络的学习能力,本方法可以正确处理这些情况。

相比于其它方法,本方法在时间效率上也具有优势。Fueta1.【1】中提出的支撑面法包含两个主要的步骤:(一)计算形状的凸包以寻找候选的支撑面,(二)提取特征以评价候选支撑面。对于每一个物体,这两步大概要耗费5秒钟。张量低秩法【二】中的张量秩的极小化问题是一个高度非线性的问题,难以优化。该文中使用了一种遗传算法,每一个形状需要耗费时间1—2分钟。但是,卷积网络本身容易并行化的属性导致它在GPU的加速下计算十分快速。故而相比之下,本方法高效得多。另外,一批量的数据可以并发处理。具体的计时结果列在了表4.7中。综上所述,可以得出结论,本方法比已有方法有至少30倍的加速。17

第4章实验

序号

结构12+34C(6,64,2,3)

ReLUC(6,64,2,3)ReLUC(6,64,2,3)ReLUC(6,64,2,3)ReLU

C(5,256,2,0)

ReLUC(5,256,2,0)ReLUC(5,256,2,0)ReLUC(5,256,2,0)ReLU

FC(256)

ReLUFC(512)ReLUFC(512)ReLUC(4,256,1,0)ReLU

Dropout(0.5)

FC(10)Dropout(0.5、FC(10)FC(10)FC(512)ReLU

Dropout(0.5)

FC(10)

精度0.9450.9560.9350.950

表4.4不同分类网络结构下的分类精度

注:c(k,佗,s,P)表示有礼个卷积核的卷积层,卷积核大小为k×k,步长为s,补零部分宽

度为P。FC(n)表示诧个节点的全连接层。Dropout(r)表示dropout率为7’。各层按从输入到输出排列。木:最终选用的网络结构,具有最高的精度。

序号

结构1丰234C(6,64,2,3)

ReLUC(6,64,2,3)ReLUC(6,64,2,3)ReLUC(6,64,2,3)I沁LU

C(5,160,2,0)

ReLUc(5,160,2,0)ReLUc(5,160,2,0)ReLUC(5,160,2,0)ReLU

C(4,512,1,0)

ReLUC(4,512,1,0)ReLUC(4,512,1,0)ReLUC(4,512,1,0)ReLU

FC(1000)

ReLUFC(1000)ReLUFC(500)ReLUFC(500)ReLU

Dropout(0.5)

FC(10)

Tal埘FC(10)TanHFC(10)T{mHDropout(0.5)FC(500)ReLU

TanH

TanH

表4.5试验的回归网络结构注:木:最终选用的结构。

18

第4章实验

序号1+234

飞机0.9580.9530.9550.955

浴缸0.9630.9480.9530.973

自行车0.8350.81O0.8280.820

小汽车0.8980.9030.9100.920

椅子0.8580.8480.8200.843

杯子0.9380.9300.9180.928

桌子0.9850.9800.9750.968

狗0.8480.8700.8330.880

水果0.5700.5200.5450.533

人0.8430.815O.8150.840

平均值0.8700.8580.8540.866

表4.6不同网络结构下的回归精度

注:宰:最终选用的结构。

TTA体素化分类回归总计

l台0.008O.0140.0120.034

l是0.0780.0330.0390.150

表4.7Nets.5系统对每一个物体预测所用时间(单位:秒)

注:最后一行中,每一个测试物体都被增强了十次,这十个体素数据在同一个批次中被并发

计算。19

。鑫q囊嗡氐≯90蔫0。囔确9哆譬■‘◇●萨唾爹■力■.专‘f,冷≯夕食Vy≮?rC.I\‘yI’J-‘露≤i◇孥瞧囊0稳◇◇∥畛蠓哟◇潦◇黪辫;》黪纛。毒’■譬参\≮.:■一◆,严S~y蕾◆’梦心rr秭《灞0影囊蘩一妫一磐黪国翻豢孥∥渗蔫◇E、V吞9毒缠囊母~■兮、、哆q弋℃可9\≯▲

鬏嬲图4.3第一个卷积层的可视化糨帅

黛檗吣忿A

一一叠180

120

60

图4.4网络高级信息提取能力的可视化

注:在体素数据的不同位置进行掏空后,预测的结果会有不同。掏空后的预测误差(单位:

度)用颜色映射表示。体素颜色越热,表明网络对其附近的区域越敏感。在这些例子中,网络总是对姿态和朝向不同的人体模型的躯干部分反应强烈,表明对人体这一品种的三维模型训练的回归网络提取到了朝向和结构感知的特征。

20

眵皤曝

眵曝囔季

图4.5网络高级信息提取能力可视化的有一个例子

注:与图4.4相同,掏空后的预测误差(单位:度)通过颜色映射来表示。在这些例子中,网

络对桌面更敏感而对桌子腿的形状有一定的不变性。

掌+掌妒鑫

图4.6本方法的泛化能力

注:本方法可以对训练数据集中不存在的品种的物体进行正朝向估计,展现了本方法的泛化

能力。第一行的物体处于随机的朝向。第二行的物体处于Nets一5估计的朝向。前三个例子预测成功但第四个例子预测失败。21蕙生量肇

第4章实验

图4.7与支撑面法【{】的比较

注:本方法可以处理不存在支撑面或支撑面不在凸包上的物体。在每一组例子中,左图的物

体以随即朝向摆放,右图的物体以Nets.5预测的正确朝向摆放。其中船的模型不属于训练数据集,被分类为浴缸。

70585753

图4.8与张量低秩法[-q的比较

注:在每一对物体中,左边的处于Nets.5预测的正朝向,但是此时具有较高的张量秩;右边

的处于错误的朝向,但是张量秩较低。张量秩的数值标注在了物体下方。22

第5章总结与展望

第5章总结与展望

5.1总结

本文论述了一种数据驱动的,基于卷积网络的方法,用于估计三维物体的正朝向。得益于卷积网络的特征学习能力,该方法不仅可以处理人造物体,而且可以处理自然物体。我们的实验证实,数据驱动的方法在处理难以人工定义逻辑规则的问题时具有明显的优势。尤其是神经网络方法,由于其端到端的学习方式,可以自动提取特征而不依赖人工设计。另外,可视化的结果表明,当获得更多的有效信息时,卷积网络可以从三维形状中提取更具有语义的特征。

本方法使用了基于距离的聚类方法以减小内存消耗,使用了测试中增强方法以进一步提高精度。聚类方法可以减少213MB,即50%的内存消耗。但是牺牲了一些回归精度。测试中增强的方法会略微增加时间消耗,但可以将回归正确率提高6%。

最后,实验证实该方法相当高效。处理一个物体需要最低0.03秒,至多o.15秒的时间。对于其它一些几何处理任务,例如三维形状检索、匹配和注册,将此方法用作这些任务的预处理步骤,可以减小后续步骤中问题的搜索空间,从而提高问题的求解效率。同时,本方法的高效性不会带来明显的额外时间开销,从而加速这些几何处理任务的完成。

5.2展望

但是,在一些方面,该方法仍有改进的空间。

首先,该方法不如几何方法精确。对于放置规划等问题,正朝向估计结果中的微小误差可能导致失败的结果(例如被放置物品的损坏)。为此,我们可以尝试结合几何方法来提高本方法的精度。例如,如果物体存在支撑面,则可以在本方法结果的附近寻找该支撑面,从而得到一个语义上正确而且物理上精确的正朝向结果。

第二,由于神经网络本身高度非线性的特点,我们难以直接了解其本身的性质。可以考虑进行更多的可视化【jl】工作以从训练得到的模型中提取更有效和深入的信息,并对一些令人疑惑的问题给出答案,例如:这些网络为什么能得到有效的结果?为什么在飞机和浴缸中某一类一IziJII练的模型在另外一类上也有好的效果?

最后,可以考虑将本方法应用于机器人学的问题。在当前的机器人研究中,23

第5章总结与展望

深度相机(例如微软公司的Kinect、英特尔公司的RealSense)作为一种相对廉价的测距设备得到了广泛应用。深度相机可以采集RGBD多通道图像。在本方法的基础上稍加改动,即可对RGBD图像中的物体进行正朝向估计,从而将本方法用于机器人学的相关问题。24

参考文献

参考文献

[1】FuH,Cohen-OrD,DrorG,eta1.Uprightorientationofman-made

onobjects[C]//ACM.ACMTransactionsGraphics(TOG):volume27.[S.I.】:ACM,2008:42.

minimization[J].【2】WangWLiuX,LiuL.Uprightorientationof3dshapesviatensorrank

JournalofMechanicalScienceandTechnology.2014,28(7):2469-2477.

structures[C]//[3】BiasottiS,MariniS,MortaraM,eta1.3dshapematchingthroughtopological

Springer.DiscreteGeometryforComputerImagery.[S.I.]:Springer,2003:194-203.[4】IyerN,Jayanti

andfutureS,LouK,eta1.Three—dimensionalshapesearching:State-of-the-artreviewtrends[J].Computer-AidedDesign.2005,37(5):509--530.

J【5】TangelderWVeltkampRC.Asurveyofcontentbased3dshaperetrievalmethods[J].Mul—timediaToolsandApplications.2008,39(3):441--471.

anddiverse:Setevolutionforinspiring3dshape[6】6XuK,ZhangH,Cohen-OrD,eta1.Fit

ongalleries[J].ACMTransactions

[7】Jiang、‘LimM,ZhengGraphics(TOG).2012,31(4):57.objectsinaC,eta1.Learningtoplacenewscene[J].TheInternational

JournalofRoboticsResearch.2012,31(9):1021-1043.

[8】SidiO,vailKaickO,KleimanYeta1.UnsupervisedCO-segmentationofasetofshapesvia

descriptor-spacespectralclustering:volume30[M].【S.I.】:ACM,201

thatGrabs1.byEmploy—[9】A

ingGeekyWorld.TheRobotIntelligentlyAI[M/OL][03一May-2015].http://www.ageekyw。rld.com/the—robot—that—grabs—intelligently—by—employing—ai/.

【10】LiuZ,ZhangJ,LiuL.Uprightorientationof3dshapeswithconvolutionalnetworks[J].Graph—

icalModels.2016.

[11】XuK,KimVG,HuangQ,eta1.Data-drivenshapeanalysisandprocessing[J].Computer

GraphicsForum.2016.

[12】JacobsRA,JordanMI,NowlanSJ,eta1.Adaptivemixturesoflocalexperts[J].Neural

Computation.1991,3(1):79-87.

and[13】Ciocca

logisticG,CusanoC,SchettiniR.Imageorientationdetectionusinglbp—basedfeaturesregression[J].MultimediaToolsandApplications.2013,74(9):3013-3034.

on【14】LuminiA,NanniL.Detectorofimageorientationbased

86.bordacount[J].PatternRecognitionLetters.2006,27(3):180-1

[15】LuoJ,BoutellM.Automaticimageorientationdetectionviaconfidence-basedintegrationof

low.1evelandsemanticcues[J].PatternAnalysisandMachineIntelligence,IEEETransactions2S

参考文献

on.2005,27(5):715-726.

【16】WangYM,ZhangH.Detectingimageorientationbasedonlow—levelvisualcontent[J].Com—

puterVisionandImageUnderstanding.2004,93(3):328-346.

S.RotationInvariantSphericalHarmonicRepre-

Symposiumon[17】KazhdanM,FunkhouserT,Rusinkiewiczsentationof3DShapeDescriptors[C].EurographicsGeometryProcessing.

【S.I.]:The

[18】LinEurographicsAssociation,2003.CK,TaiWK.Automaticuprightorientationandgoodviewrecognitionfor3dman—made

models[J].PatternRecognition.2012,45(4):1524-1530.

【19】ZhangZ,GaneshA,LiangX,eta1.Tilt:Transforminvariantlow-ranktextures[J].Interna-

tionalJournalofComputerVision.2012,99(1):l_24.

[20】JinYWuQ,LiuL.Unsuperviseduprightorientationofman—mademodels[J].Graphical

Models.2012,74(4):99--108.

【21】PlemenosD,BenayadaM.Intelligentdisplayinscenemodeling.newtechniquestoautomat-

icallycomputegoodviews[C].Int.Conf.onComputerGraphics&Vision.[S.I.】,1996.

objectrecognition[C]//IEEE.

1.[S.I.】:【22]AbbasiS,MokhtarianF.Automaticviewselectioninmulti-viewPaRernRecognition,2000.Proceedings.15thInternationalConferenceon:volume

IEEE,2000:13—16.

[23】V缸luezPEFeixasM,SbertM,eta1.Automaticviewselectionusingviewpointentropy

anditsapplicationtoimage‘based

Forum:volumemodelling[C]//WileyOnlineLibrary.ComputerGraphics22.[S.I.】:WileyOnlineLibrary,2003:689-700.

【24】V缸quezP只Monchis

Springer.SmartE,NavazoI.Representativeviewsandpathsforvolumemodels[C]HGraphics.[S.I.】:Springer,2008:106_ll7.

F.Aunifiedinformation.theoreticframeworkforviewpoint

Transactionson【25】FeixasM,SbertM,Gonzfilezselectionandmesh

1.saliency[J].ACMAppliedPerception(TAP).2009,6(1):

[26】ZhangZ.1terativepointmatchingforregistrationoffree—formcurvesandsurfaces[J].Inter-

nationalJournalofComputerVision.1994,13(2):119—152.

[27】LeCunY

【28】LeCunYBengioYHintonG.DeepBoRouL,Bengiolearning[J].Nature.2015,521(7553):436_444.toYeta1.Gradient-basedlearningapplieddocumentrecogni—

tion[J].Proceedings

[29]KrizhevskyoftheIEEE.1998,86(11):2278-2324.A,SutskeverI,HintonGE.Imagenetclassificationwithdeepconvolutionalneural

inNeuralnetworks[C].Advances

[301InformationProcessingSystems.[S.I.】,2012:1097-1105.SermanetPLeCunY.Trafficsignrecognitionwithmulti-scaleconvolutional

IEEE.Neuralnetworks[C]//Networks(IJCNN),The2011InternationalJointConferenceon.【S.I.]:IEEE,2011:2809—2R1326

参考文献

[31]SunYChenYWangX,eta1.Deepleamingfacerepresentationby

inNeuralInformationProcessingjointidentification.verification[C].Advances

1996.Systems.[s.1.】,2014:1988—

【32】SunYWangX,TangX.Deepconvolutionalnetworkcascadeforfacialpoint

ondetection[C].ProceedingsoftheIEEEConference

2013:3476-3483.ComputerVisionandPatternRecognition.[S.1.】,

【33】TompsonJ,SteinM,LecunYeta1.Real-timecontinuousposerecoveryofhumanhandsusing

convolutionalnetworks[J].ACMTransactions

C.Deeppose:Human

ononGraphics.August2014,33.[34】ToshevA,Szegedyposeestimationviadeepneuralnetworks[C].Pro.ceedingsoftheIEEEConference

1653-1660.ComputerVisionandPattemRecognition.【S.1.],2014:

【35】GuptaS,GirshickR,Arbel五,ezP,eta1.LearningrichfeaturesfromRGB—Dimagesforobject

detectionandsegmentation[M].【S.1.】:Springer,2014:345-360.

segmentation[C].[36】LongJ,ShelhamerE,DarrellT.Fullyconvolutionalnetworksforsemantic

onProceedingsoftheIEEEConference

20l5:3431-3440.ComputerVisionandPatternRecognition.[S.1.],

【37】SilverD,HuangA,MaddisonC

andtreeJ,eta1.Masteringthegameofgowithdeepneuralnetworkssearch[J].Nature.2016,529(7587):484--489.

A.StudiesinComputationalIntelligenceSupervisedsequencelabellingwithRecur-[38】Graves

rentNeuralNetworks[M].【S.1.】:Springer,2012.

S,SchmidhuberJ.Longshort-term【39】Hochreiter

1735-1780.memory[J].Neuralcomputation.1997,9(8):

【40]Dosovitskiy

neuralA,TobiasSpringenbergJ,BroxT-Learningtogeneratechairswithconvolutional2015.networks[C].【S.1.】,June

[4l】SuH,MajiS,KalogerakisE,eta1.Multi—viewconvolutionalneural

15.networksfor3dshaperecognition[C].ICCV.[S.1.】,20

【42】ZhuZ,WangX,BaiS,eta1.Deepleamingrepresentationusingautoencoderfor3dshape

Analysis,andretrieval[C]//IEEE.Security,Pattem

ConferenceCybemetics(SPAC),2014Internationalon.【S.1.]:IEEE,2014:279-284.

[43]WuZ,SongS,KhoslaA,eta1.3dshapenets:Adeeprepresentationforvolumetricshape

IEEEConferenceonmodeling[C].The

【S.1.],June

[44】JiS,Xu2015。ComputerVisionandPattemRecognition(CVPR).WYangM,eta1.3dconvolutionalneuralnetworksforhumanactionrecognition[J].

PattemAnalysisandMachineIntelligence,IEEETransactionson.2013,35(1):221-231.[45]LeCunYA,BottouL,OrrGB,eta1.EfficientBackprop[M].[S.1.】:Springer,2012:9_48.27

参考文献

[46】HastieT'TibshiraniR,Friedman

enceJ.TheElementsofStatisticalLearning:DataMining,Infer-andPrediction[M].2nd.[S.I.】:Springer,2009.

S.Classifyingplanktonwithdeepneural[47】Dielemannetworks[M/OL】【03-Sept-2015].http:

//benanne.github.io/2015/03/17/plankton.html.

[48】HartleyR,TrumpfJ,DaiYeta1.Rotationaveraging[J].InternationalJournalofComputer

Vision.2013,103(3):267-305.

[49】SrivastavaN,HintonG,KrizhevskyA,etai.Dropout:Asimplewaytopreventneuralnet.

worksfrom

1958.overfittingU].TheJournalofMachineLearningResearch.2014,15(1):1929-

[50】JiaYShelhamerE,DonahueJ,eta1.Caffe:Convolutionalarchitectureforfastfeatureem.

oftheACMInternationalConferenceonbedding[C]//ACM.Proceedings

ACM,2014:675--678.Multimedia.[S.I.】:

[51]ZeilerMD,FergusR.Visualizingandunderstandingconvolutionalnetworks[M].[S.I.】:

Springer,2014:818-833.28

致谢

致谢

在中国科学技术大学完成本科和硕士学业的七年里,我所从事的学习和研究工作,都是在导师以及实验室、院系其他老师和同学的帮助和指导下进行的。在论文完成之际,请允许我对他们致以诚挚的谢意。

首先感谢导师刘利刚教授和张举勇副教授多年的指导和教诲。刘老师严谨的研究态度及忘我的工作精神,张老师认真细致的治学态度及宽广的胸怀,都将使我受益终身。

感谢班主任宋立功老师和黄稚新老师多年的关怀。感谢陈发来、邓建松、杨周旺、童伟华、李新、黄章进、陈雪锦、宋鹏、周世哲、康红梅、朱远鹏、刘源等老师,是他们的指导给我研究生阶段的科研工作打下了基础。

感谢邓方、傅孝明、李建方、刘敏、年先顺、潘茂东、汪志华、王春雪、王伟明、王伟娜、王睿曼、熊世勇、徐琳琳、徐文鹏、杨娇娇、杨天会、曾超、张建生、张晶晶、仲彦军等师兄师姐们的指点和照顾;感谢AsadKhan、单文、丁超、蒋罗、李浩、宋艳枝、王康、王少标、王士玮、吴芬芬、杨红庄、张主宇等几位同班同学,与你们的讨论使我受益良多;感谢柴双明、产海林、陈岩、杜冬、胡超、汲梦宇、李岩、李真熙、林宇鹏、陆炎、王婕、吴美娟、杨宏伟、张纯、郭玉东等师弟师妹,我们在图形与几何计算实验室共同学习共同生活,一起走过了这段难忘的岁月。

感谢科大,感谢一路走过来的兄弟姐妹们,在最宝贵的年华里,是你们伴随了我的成长。

最后,感谢家人一直以来的鼓励和支持,你们是我科研学习的坚强后盾。

刘子舜

2016年5月25曰29

30

致谢

在读期间发表的学术论文与取得的研究成果

在读期间发表的学术论文与取得的研究成果

已发表论文:

1.ZishunLiu,JuyongZhang,LigangLiu,UprightOrientationof3DShapeswithConvolutionalNetworks,GraphicalModels,2016.

2.JuyongZhang木,BailinDeng木,ZishunLiu,GiuseppePatan色,SoftenBouaziz,

KaiHormann,LigangLiu,LocalBarycentricCoordinates,ACMTransactionsonGraphics(Proc.SIGGRAPHAsia),33(6),2014.(木joint

Zhang,Ligangfirstauthors)3.ZishunLiu,ZhenxiLi,JuyongLiu,EuclideanandHamming

EmbeddingforImagePatchDescriptionwithConvolutional

bustFeaturesforComputerVision,CVPRWorkshop,2016.Networks,Ro—

发明专利:

1.张举勇,邓柏林,刘子舜,刘利刚,一种重心坐标的构建方法,申请公布

号:CNl04268936A3l


相关文章

  • 人脸识别技术的研究现状与展望
  • 人脸识别技术的研究现状与展望 董琳 赵怀勋 武警工程学院通信工程系,陕西,710086 [摘 要]本文主要介绍了人脸识别技术(FRT)的常用方法,讨论和分析了人脸检测与定位.人脸特征提取.人脸识别方法等方面的研究成果,总结了人脸识别的未来发 ...查看


  • 深度学习最权威综述
  • 深度学习最权威综述!业界三大神LeCun.Bengio和Hinton 联合打造 三大牛Yann LeCun.Yoshua Bengio和Geoffrey Hinton在深度学习领域的地位无人不知.为纪念人工智能提出60周年,最新的<N ...查看


  • 自适应随机游走图像分割算法
  • 第32卷第8期2011年8月东北大学学报(自然科学版)JournalofNortheasternUniversity(NaturalScience)Vol132,No.8Aug.2011 自适应随机游走图像分割算法 依玉峰,高立群,程 伟, ...查看


  • 三维图像重建结课报告
  • 三维图像重建 一. 摘要: 物体的三维重建是指对三维物体建立适合计算机表示和处理的数学模型, 是在计算机环境下对其进行处理, 操作和分析其性质的基础, 也是在计算机中建立表达客观世界的虚拟现实的关键技术. 计算机内生成物体三维表示主要有两类 ...查看


  • 精确三维图像重建算法及其实现的研究
  • 北京交通大学 硕士学位论文 精确三维图像重建算法及其实现的研究 姓名:兰勇生 申请学位级别:硕士 专业:计算数学 指导教师:渠刚荣 20061201 北京交通大学硕士学位论文中文摘要 中文摘要 摘要:三维螺旋凹具有精确性,高分辨率,图像质量 ...查看


  • matlab实现线性卷积和循环卷积
  • 编号: 数字信号处理 实训 (论文) 说明书 题 目: 用matlab 实现两信号的卷积 院 (系): 应用科技学院 专 业: 电子信息工程 学生姓名: 蒋耀华 学 号: 0801130215 指导教师: 严素清 童有为 纪元法 2011 ...查看


  • 交互式医学图像分割算法
  • 第27卷 第12期 文章编号:1006-9348(2010) 12-0262-05 计 算 机 仿 真 2010年12月 交互式医学图像分割算法 吕 洁, 熊春荣 (玉林师范学院职业技术学院, 广西玉林537000) 摘要:针对医学图像的特 ...查看


  • 傅立叶变换的物理意义
  • 傅立叶变换的物理意义 1.为什么要进行傅里叶变换,其物理意义是什么? 傅立叶变换是数字信号处理领域一种很重要的算法要知道傅立叶变换算法的意义,首先要了解傅立叶原理的意义傅立叶原理表明:任何连续测量的时序或信号,都可以表示为不同频率的正弦波信 ...查看


  • 数字信号处理B_教学大纲
  • <数字信号处理B >课程教学大纲 Digital Signal Processing B 课程编码: 适用专业:广播电视工程等 先修课程:信号与线性系统 学 分 数:3 总学时数:48 实验(上机)学时:0 考核方式:校考 执 ...查看


热门内容