Study in IRLAB

Tutorial-for-Retrieval-Engine

Tutorial for Retrieval Engine

常见全文检索引擎使用简介

全文检索引擎

  • 工业界:Luence, Solr和Elasticsearch
  • 学术界:Indri

Luence使用简介

主要介绍Luence的配置和使用

环境配置

  • java1.8,参照该文档进行配置
  • maven, 参照该文档进行配置
  • IDEA, 点击下载,自行安装配置
  • mysql5.6,点击下载,参照该文档进行配置
  • Navicat for MySQL,自行下载安装

使用简介

待更新…

Indri使用简介

主要介绍Indri的配置和使用,也可参见该博客

下载安装

使用简介

  • 功能:

    • IndriBuildIndex:通过索引的参数文件建立索引
    • IndriRunQuery:通过参数文件进行检索
    • dumpindex:用于查看建完索引后的文档、词以及一些统计数据等
    • Ireval:评测工具
  • IndriBuildIndex

    • <index></index>存放索引将要存放的位置
    • <corpus><path></path></corpus>存放文档的位置

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      <parameters>
      <memory>200m</memory>
      <index>path of your index</index>
      <stemmer>
      <name>porter</name>
      <!-- <name>krovetz</name> -->
      </stemmer>
      <corpus>
      <path>path of your corpus</path>
      <class>xml</class>
      </corpus>
      <field><name>title</name></field>
      <field><name>abstract</name></field>
      <stopper>
      <word>a</word>
      <word>an</word>
      <word>this</word>
      <word>in</word>
      </stopper>
      </parameters>
    • 建立索引:path_of_IndriBuildIndex.exe path_of_index_parameters.xml

  • IndriRunQuery

    • <index></index>存放之前建立好的索引位置
    • <query><text></text></query>存放query内容

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      <parameters>
      <rule>method:dirichlet,mu:1000</rule>
      <!-- <rule>method:jm,lambda:0.4</rule> -->
      <!-- <rule>method:twostage,mu:1500,lambda:0.4</rule> -->
      <!-- <baseline>tfidf,k1:1.0,b:0.3</baseline> -->
      <!-- <baseline>okapi,k1:1.0,b:0.3,k3:7</baseline> -->
      <index>C:/Users/heguoxiu/Desktop/ir/test/Indri</index>
      <count>5</count>
      <query>
      <number>1</number>
      <text>Result Diversification</text>
      </query>
      <trecFormat>true</trecFormat>
      <runID>indri_query_sample</runID>
      </parameters>
    • 提交查询:path_of_IndriRunQuery.exe path_of_query_parameters.xml

  • dumpindex

    • 一般的使用格式:dumpindex <repository_path> <command> [<argument>]*
    • 查看倒排索引的内容:dumpindex path_of_index invlist
    • 查看索引的词典:dumpindex path_of_index vocabulary
    • 查看索引的简单统计:dumpindex path_of_index stats
    • 其他
  • Ireval

    • 评价指标:MAP, P@N, NDCG
    • 用法:java -jar ireval.jar resultFile qrelFile

其他的检索引擎工具如Solr和Elasticsearch以后更新,谢谢