世界智能制造,探索智能技术引领下的制造业未来
434
2024-01-23
三维重建算法广泛应用于手机等移动设备中,常见的算法有SfM,REMODE和SVO等双目/多目视觉 双目视觉主要利用左右相机得到的两幅校正图像找到左右图片的匹配点,然后根据几何原理恢复出环境的三维信息。
但该方法难点在于左右相机图片的匹配,匹配地不精确都会影响最后算法成像的效果多目视觉采用三个或三个以上摄像机来提高匹配的精度,缺点也很明显,需要消耗更多的时间,实时性也更差
这两种方法理论上都可较精确恢复深度信息,但实际上受拍摄条件的影响,其精度往往无法得到保证常见的有SGM和SGBM算法等,其中自动驾驶数据集KITTI中,排名前五十的算法几乎有一半都是对SGM的改进。
基于消费级RGB-D相机 相机可以基于主动式、被动式不同原理,优点在于基于这些设备的算法更具备实用性 近年来,也有不少研究直接基于消费级的RGB-D相机进行三维重建,如在微软的Kinect V1、V2产品上,取得了不错的效果。
最早,由帝国理工大学的Newcombe等人于2011年提出的Kinect Fusion开启了RGB相机实时三维重建的序幕此后有 Dynamic Fusion和Bundle Fusion等算法 这些方法它们各自有着各自的优点和缺点,同样有各自所适用的应用范围。
以上为想要入门基于深度学习进行三维重建领域的同学简要介绍了这些方法,如需要深入了解,请仔细阅读相关文献,SfM和多视图几何等经典算法作为入门三维重建领域的基础永远都不会过时基于深度学习的三维重建算法 我们将基于深度学习的三维重建算法简要地分为三部分,更详细的文献综述将会在后续的公众号的系列文章中做介绍:
在传统三维重建算法中引入深度学习方法进行改进 深度学习重建算法和传统三维重建算法进行融合,优势互补 模仿动物视觉,直接利用深度学习算法进行三维重建 在传统三维重建算法中引入深度学习方法进行改进
因为CNN在图像的特征匹配上有着巨大优势,所以这方面的研究有很多,比如:DeepVO 其基于深度递归卷积神经网络(RCNN)直接从一系列原始RGB图像(视频)中推断出姿态,而不采用传统视觉里程计中的任何模块,改进了三维重建中的视觉里程计这一环。
BA-Net 其将 SfM 算法中的一环集束调整(Bundle Adjustment, BA)优化算法作为神经网络的一层,以便训练出更好的基函数生成网络,从而简化重建中的后端优化过程 • Code SLAM,如之前所提,其通过神经网络提取出若干个基函数来表示场景的深度,这些基函数可以简化传统几何方法的优化问题。
深度学习重建算法和传统三维重建算法进行融合,优势互补 CNN-SLAM13将CNN预测的致密深度图和单目SLAM的结果进行融合,在单目SLAM接近失败的图像位置如低纹理区域,其融合方案给予更多权重于深度方案,提高了重建的效果。
模仿动物视觉,直接利用深度学习算法进行三维重建 我们知道,三维重建领域主要的数据格式有四种:深度图(depth map) 2D图片,每个像素记录从视点到物体的距离,以灰度图表示,越近越黑;
体素(voxel) 体积像素概念,类似于2D之于像素定义;点云(point cloud) 每个点逗含有三维坐标,乃至色彩、反射强度信息;网格(mesh) 即多边形网格,容易计算 因而,依据处理的数据形式不同我们将研究简要分为三部分:1)基于体素;2)基于点云;3)基于网格。
而基于深度图的三维重建算法暂时还没有,因为它更多的是用来在2D图像中可视化具体的三维信息而非处理数据(1)基于体素 体素,作为最简单的形式,通过将2D卷积扩展到3D进行最简单的三维重建: Depth Map Prediction from a Single Image using a Multi-Scale Deep Network, 2014
该方法是用深度学习做三维重建的开山之作,基于体素形式,其直接用单张图像使用神经网络直接恢复深度图方法,将网络分为全局粗估计和局部精估计,并用一个尺度不变的损失函数进行回归 3D-R2N2: A unified approach for single and multi-view 3d object reconstruction, 2016。
Christopher等人基于体素形式提出的3D-R2N2模型使用Encoder-3DLSTM-Decoder的网络结构建立2D图形到3D体素模型的映射,完成了基于体素的单视图/多视图三维重建(多视图的输入会被当做一个序列输入到LSTM中,并输出多个结果)。
但这种基于体素的方法存在一个问题,提升精度即需要提升分辨率,而分辨率的增加将大幅增加计算耗时(3D卷积,立次方的计算量)(2)基于点云 相较而言,点云是一种更为简单,统一的结构,更容易学习,并且点云在几何变换和变形时更容易操作,因为其连接性不需要更新。
但需要注意的是,点云中的点缺少连接性,因而会缺乏物体表面信息,而直观的感受就是重建后的表面不平整 A Point Set Generation Network for 3D Object Reconstruction From a Single Image, 2017
该方法是用点云做三维重建的开山之作,最大贡献在于解决了训练点云网络时候的损失问题,因为相同的几何形状可能在相同的近似程度上可以用不同的点云表示,如何用恰当的损失函数来进行衡量一直是基于深度学习用点云进行三维重建方法的难题。
Point-Based Multi-View Stereo Network, 2019 该方法通过对场景的点云进行处理,融合三维深度和二维纹理信息,提高了点云的重建精度(3)基于网格 我们知道之前的方法的缺点:。
基于体素,计算量大,并且分辨率和精度难平衡 基于点云,点云的点之间缺少连接性,重建后物体表面不光滑 相较而言,网格的表示方法具有轻量、形状细节丰富的特点,重要是相邻点之间有连接关系因而研究者基于网格来做三维重建。
我们知道,网格是由顶点,边,面来描述3D物体的,这正好对应于图卷积神经网络的M=(V,E,F)所对应Pixel2Mesh 用三角网格来做单张RGB图像的三维重建,相应的算法流程如下: Step1:对于任意的输入图像都初始化一个椭球体作为初始三维形状。
Step2:将网络分为两部分: 一部分用全卷积神经网络来提取输入图像的特征 另一部分用图卷积网络来表示三维网格结构, Step3:对三维网格不断进行变形,最终输出物体的形状 模型通过四种损失函数来约束形状,取得了很好的效果。
贡献在于用端到端的神经网络实现了从单张彩色图直接生成用网格表示的物体三维信息总结传统的三维重建算法可以分为:
这些方法各自有各自优点和使用范围,简要概括一下:
而基于深度学习的三维重建算法研究主要有三种: 1. 在传统三维重建算法中引入深度学习方法进行改进; 2. 深度学习重建算法和传统三维重建算法进行融合,优势互补; 3. 模仿动物视觉,直接利用深度学习算法进行三维重建,包括基于体素、基于点云和基于网格。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~