Narcissus's blog Stay Follish, Stay Hungry

relation network for object detection


整体思路

图1 网络结构

图1 整体结构

主要是在原来的四阶段检测的基础上增加了关系信息模块,在instance recognition模块,FC模块和relation模块的输入输出都是一样的,因此能直接加入到FC层之后,这个relation模块主要是利用了每个物体与其他物体之间的关系,它的建立是基于原始attention model改的。而duplicate removal模块主要是代替NMS,进行一个二分类,去除一些重复的框。

图2

图2 两个relation模块

Object Relation module

原始attention model

主要思想是使用Attention机制,最原始的attention模型[56]: 这个模型叫Scaled Dot-product Attention,q为query,K为keys,$d_k$是q的维度,V是value;具体指什么,为什么这么建模是,要去看看引用论文。

本文使用attention model

  1. 本文主要是对每个物体n,根据其他的m个物体建立以下关系特征:

    • $W_V$是线性变换矩阵,相当于公式(1)中的V;
    • $f_A^m$是第m个物体的visual feature;
    • $w^{mn}$是第m个物体对第n个物体的权重,其实这里就体现了attention的思想,把注意力更多的给哪些物体;
  2. $w^{mn}$的计算:

    它的计算来自$w^{mn}_G$和$w_A^{mn}$,分别表示第m个物体对第n个物体的几何特征(geometry feature)权重和视觉特征(visual feature)权重;

  3. $w_A^{mn}$的计算:

    这部分类似于公式(1)的attention model: 其实为什么会这么建模,我也并不是十分的清除啊!$W_K$,$W_Q$类似于公式(1)中的K和q。

  4. $w_G^{mn}$的计算:

    • 其中,$f_G$是$(log(\frac{\lvert{x_m}-{x_n}\rvert}{w_m},log(\frac{\lvert{y_m}-{y_n}\rvert}{h_m},log(\frac{w_n}{w_m}),log(\frac{h_n}{h_m}))$,是论文[23]的改进版本,log操作主要是考虑距离较远的物体,而原始的box regression只考虑近处的物体。

    • $\epsilon_G$是为了将geometry feature 投影到高维空间;

    • $W_G$是为了将特征变换成向量;

    • max操作是进行一个trim操作

      The zero trimming operation restricts relations only between objects of certain geometric relationships

  5. 最终特征: 这里值得主要的是采用的concate操作,而并没使用add操作;

图2中这个(a)2fc模块 就是加入了object relation之后的结构:

duplicate relation module

这个模块就没有用attention机制了,就是利用score、visual feature、bbox构建了一个二分类器,即图2中(b):

  • $f^n$(1024-d feature,应该是整张图像的visual feature) 和$score^n$得到visual feature;
  • 结合bbox,得到所有物体的appearance feature;
  • 类别分数是排序的顺序,而不是原始的分数a rank $\in[1, N] $

Similar Posts

Comments