深度学习论文笔记--Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

阅读时间:2015.04.26
论文源:NIPS2014
作者及单位: David Eigen  [email protected]
Christian Puhrsch  [email protected]
Rob Fergus [email protected]
纽约大学

主要内容:通过CNN来进行对单张图片进行深度估计,单张图片进行深度信息估计做的人比较少,一般是用双目摄像头做的。在这里,作者把CNN当作一个黑盒来看待,用CNN来直接学习图像到它的深度图像信息的映射。

创新点:

  1. 正如文章题目所言,相对于传统的CNN,它是多尺度的,(其实也就是两个尺度,一个粗粒度的,一个细粒度的),这个创新点有点弱。
  2. 对于第二个创新,则是它采用了一个新的损失函数形式,也是加一个类似于正则化项的东西。

其它的没有了,看这篇文章主要是因为我目前做的也是用图像来做回归,看看它这边的损失函数有什么新的东西没有。

网络结构:

技术分享
这边解析一下它的网络结构:

  1. 两个层次的结构,第一个网络是由一个除粒度的网络结构,其输入是304 ×  228 大小的图片,而它的输出,则是原图像大小的1/16 左右,这个可以指定,因为它就是设计的全连接层的维度。通过ground true图像就可以训练这样网络了。
  2. 第二个网络结构是细粒度的网络,但是它也是作用在原输入图像上面,并且第二层卷积层会加上第一个网络的输出。第二个网络没有全连接层,是属于全卷积网络。

损失函数:

  1. 损失函数,同时也是对其结果的评价标准,这是文章的第二个创新点,其损失函数为:技术分享 其中技术分享
  2. 第二项α  表示平均的误差项,第一项的前面部分表示每个像素之间的误差项,把第二项加到第一项中做为整体,可以使得同时满足平均误差小同时每个像素的误差也小,相当于一个惩罚项。

实验结果:

技术分享
技术分享

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。