SIN网络结构
网络结构解释
首先对输入图像利用faster-rcnn进行物体检测,得到一些ROIs,对ROI进行ROI pooling得到固定size的feature map,再经过全连接层映射成一些节点(nodes,即feature vector),并两两组合得到edges,即得到object relationship context。对整个图像提取特征得到scene context。将两种context送入到GRU(选择GRU的原因是其具有记忆功能,能融合来自多方面的context,并传递到下一次更新中,即有消息传递功能),这个GRU的原理如下:
这里r开关和z开关的详细定义及作用可看论文
全局context与局部context
对于每一个物体的定位,它利用了来自scene GRU的信息和Edge GRU的信息,如下:
形式化的表示为:
其中的空间位置特征表示为:
最后得到隐藏层t+1的特征表示(通过mean pooling 得到):
结果分析
-
量化结果是一个总体结果,肯定是好的,这个需要跑代码看,数据是否对。
-
qualitative results
Scene module结果中比较值得一说的是failure case:将海里的airoplain识别成了boat,说明对这种罕见的场景来说scene context是不好的
- Edge module的结果:定位错误的结果减少;能够减少重复检测的结果:
- 结合两种context的结果: