FastFCN是自动化所2019年cvpr上的一个工作,提出JPU模块,代替dilated conv,在保证网络精度的前提下,大大降低网络的计算复杂度,是的FPS得到提升。

这些年来计算机视觉得到广泛的发展,网络结构也越来越复杂,这篇文章做了一些下修改,可以说耳目一新,结构十分简单,结果十分有效。

语义分割常用的提取feature map

a)FCN结构:通过一个全卷积的网络,直接得到图像分割后的结果。缺点是图像中的特征丢失。

b)encoder-decoder结构:encoder结构得到高层次的特征,decoder阶段通过结合多层次的特征来得到一个多尺度融合的feature map,缺点是仍然存在数据的丢失(pooling 结构)

c) DilatedFCN:利用空洞卷积替换pooling层,扩大feature map感受野的同时,没有降低feature map的分辨率。但是这种结构导致了很大的计算量。

###JPU结构

作者提出JPU(joint pyramid upsampling)结构,替换DilateFCN中的空洞卷积结构,能够大大的减少内存以及时间上的消耗。

image-20191101134143826

###FastFCN结构

image-20191101134311586

FastFCN的backbone采用的是原始的FCN的结构,将FCN的最后三层输入JPU模块中进行训练,最终在许多任务上都得到一个性能一致,但速度得到提升的网络。

mIoU:对每一类计算真实标签和预测标签的交并比,然后对所有类别求一个平均得到最后的结果。

总结

这篇文章对FCN的网络中的dilated conv进行了一个很小的修改,达到一个比较合理的结果,文章非常的简单,不过可能是因为过于简单的原因,文中也有许多可有可无的内容,总之,对于做工程来说,得到一个FPS比较快的网络还是比较好的。