A Deep Relevance Matching Model for Ad-hoc Retrieval
DRMM by Jiafeng Guo, Yixing Fan, Qingyao Ai and W.Bruce Croft for CIKM2016
- 关键词:相关性匹配;语义匹配,神经网络模型,Ad-hoc检索,排序模型
- 背景:DNN在语音识别、计算机视觉和NLP任务中取得了极大的突破,但是在ad-hoc检索任务并没有取得积极的结果。
关键:ad-hoc检索被定义为相关性匹配,而其他的NLP任务如段落识别、问答和自动对话为语义匹配。
匹配模型要解决的问题:精确匹配信号;查询语句重要性和多样化匹配需求。
本文内容:
- 提出深度相关匹配模型(Deep Relevance Matching Model, DRMM)
- 主要组成部分:matching histogram mapping, feed forward matching network and term gating network,以解决以上上个问题。
数据集:TREC——Robust04 and ClueWeb-09-Cat-B,与传统的检索模型和state-of-the-art深度匹配模型相比,很有竞争力。
简介和相关研究
- ad-hoc检索的本质是对给定(查询-文档)对相关性得分的排序模型(相关性匹配)。
- 机器学习在检索应用的难点是特征提取。
- 应用深度学习的文本匹配模型:$match(T_1, T_2)=F(\Phi(T_1), \Phi(T_2))$
- 基于表达的模型:利用深度神经网络对单个文档建立一个好的表达,然后计算文档之间的匹配程度。如:DSSM, C-DSSM and ARC-I。
- 基于交互的模型:首先建立两个文档的局部交集,然后利用深度神经网络学习匹配的融合交互模式。如:Deep Match Tree (DeepMatchtree)、ARC-II and MatchPyramid。
语义匹配 VS. 相关匹配
语义匹配:
- Similarity matching signals:不同的项表达着相似的意思或者具有推断关系等相关的意思。
- Compositional meanings:更关注语法结构而非“词袋”,同时明确的语法结构对该NLP任务至关重要。
- Global matching requirement:考虑文本的整体信息。
相关匹配:
- Exact matching sigals:在ad-hoc检索中,要求的是精确匹配(尽管目前也有做语义相似的term做检索的)。所以说,BM25直到目前为止,都是最好的检索模型。
- Query term importance:在Ad-hoc检索中,通常比较短的query没有复杂的语法结构,主要包括一些关键词。所以query的term的重要性值得考虑。
- Diverse matching requirement:Verbosity Hypothesis认为长文档和短文档类似,也包括一个相似的范围;Scope Hypothesis认为长文档是不相关的短文档的集合,所以文章不一定要整个与query相关。
本文提出的(Deep Relevance Matching Model,DRMM)
- 一种交互模型——解决了匹配模型的三个主要因子
- 定义:$q={w_1^{(q)},\ldots ,w_M^{(q)}}$和$d={w_1^{(d)},\ldots ,w_N^{(d)}}$,其中,$w_i^{(q)},i=1,\ldots ,M$和$w_j^{(d)},j=1,\ldots ,N$分别表示query term的vector和document term的vector(直接利用已经训练好的word2vec工具),$s$表示最后的相关性得分,本文的公式如下:$$z_i^{(0)}=h(w_i^{(q)}\bigotimes d), i=1,\ldots ,M$$,$$z_i^{(l)}=tanh(W^{(l)}z_i^{(l-1)}+b^{(l)}),i=1,\ldots ,M,l=1,\ldots ,L$$,$$s=\sum_{i=1}^M g_i z_i^{(L)}$$
- 建立基于embedding的query和document对的局部交互
- 对于每个query term,把不同长度的局部交互映射到固定长度的匹配直方图。
- 基于匹配直方图,利用前馈神经网络学习分层匹配模式然后生成一个匹配得分。
- 最后,利用gate network将每个query term的分数集合起来得到整体的匹配得分。
实验结果及分析
非常好!