Study in IRLAB

A_Deep_Relevance_Matching_Model_for_Ad-hoc_Retrieval

A Deep Relevance Matching Model for Ad-hoc Retrieval

DRMM by Jiafeng Guo, Yixing Fan, Qingyao Ai and W.Bruce Croft for CIKM2016

  • 关键词:相关性匹配;语义匹配,神经网络模型,Ad-hoc检索,排序模型
  • 背景:DNN在语音识别、计算机视觉和NLP任务中取得了极大的突破,但是在ad-hoc检索任务并没有取得积极的结果。
  • 关键:ad-hoc检索被定义为相关性匹配,而其他的NLP任务如段落识别、问答和自动对话为语义匹配

    匹配模型要解决的问题:精确匹配信号;查询语句重要性和多样化匹配需求。

  • 本文内容:

    • 提出深度相关匹配模型(Deep Relevance Matching Model, DRMM)
    • 主要组成部分:matching histogram mapping, feed forward matching network and term gating network,以解决以上上个问题。
  • 数据集:TREC——Robust04 and ClueWeb-09-Cat-B,与传统的检索模型和state-of-the-art深度匹配模型相比,很有竞争力。

简介和相关研究

  • ad-hoc检索的本质是对给定(查询-文档)对相关性得分的排序模型(相关性匹配)。
  • 机器学习在检索应用的难点是特征提取。
  • 应用深度学习的文本匹配模型:$match(T_1, T_2)=F(\Phi(T_1), \Phi(T_2))$
    • 基于表达的模型:利用深度神经网络对单个文档建立一个好的表达,然后计算文档之间的匹配程度。如:DSSM, C-DSSM and ARC-I。
    • 基于交互的模型:首先建立两个文档的局部交集,然后利用深度神经网络学习匹配的融合交互模式。如:Deep Match Tree (DeepMatchtree)、ARC-II and MatchPyramid。
      representation_and_interaction

语义匹配 VS. 相关匹配

  • 语义匹配:

    1. Similarity matching signals:不同的项表达着相似的意思或者具有推断关系等相关的意思。
    2. Compositional meanings:更关注语法结构而非“词袋”,同时明确的语法结构对该NLP任务至关重要。
    3. Global matching requirement:考虑文本的整体信息。
  • 相关匹配:

    1. Exact matching sigals:在ad-hoc检索中,要求的是精确匹配(尽管目前也有做语义相似的term做检索的)。所以说,BM25直到目前为止,都是最好的检索模型。
    2. Query term importance:在Ad-hoc检索中,通常比较短的query没有复杂的语法结构,主要包括一些关键词。所以query的term的重要性值得考虑。
    3. Diverse matching requirement:Verbosity Hypothesis认为长文档和短文档类似,也包括一个相似的范围;Scope Hypothesis认为长文档是不相关的短文档的集合,所以文章不一定要整个与query相关。

本文提出的(Deep Relevance Matching Model,DRMM)

  • 一种交互模型——解决了匹配模型的三个主要因子
    DRMM
  • 定义:$q={w_1^{(q)},\ldots ,w_M^{(q)}}$和$d={w_1^{(d)},\ldots ,w_N^{(d)}}$,其中,$w_i^{(q)},i=1,\ldots ,M$和$w_j^{(d)},j=1,\ldots ,N$分别表示query term的vector和document term的vector(直接利用已经训练好的word2vec工具),$s$表示最后的相关性得分,本文的公式如下:$$z_i^{(0)}=h(w_i^{(q)}\bigotimes d), i=1,\ldots ,M$$,$$z_i^{(l)}=tanh(W^{(l)}z_i^{(l-1)}+b^{(l)}),i=1,\ldots ,M,l=1,\ldots ,L$$,$$s=\sum_{i=1}^M g_i z_i^{(L)}$$
  1. 建立基于embedding的query和document对的局部交互
  2. 对于每个query term,把不同长度的局部交互映射到固定长度的匹配直方图。
  3. 基于匹配直方图,利用前馈神经网络学习分层匹配模式然后生成一个匹配得分。
  4. 最后,利用gate network将每个query term的分数集合起来得到整体的匹配得分。

实验结果及分析

非常好!

Thanks