Tutorial for Retrieval Engine
全文检索引擎
- 工业界:Luence, Solr和Elasticsearch
- 学术界:Indri
Luence使用简介
主要介绍Luence的配置和使用
环境配置
- java1.8,参照该文档进行配置
- maven, 参照该文档进行配置
- IDEA, 点击下载,自行安装配置
- mysql5.6,点击下载,参照该文档进行配置
- Navicat for MySQL,自行下载安装
使用简介
待更新…
Indri使用简介
主要介绍Indri的配置和使用,也可参见该博客
下载安装
使用简介
功能:
- IndriBuildIndex:通过索引的参数文件建立索引
- IndriRunQuery:通过参数文件进行检索
- dumpindex:用于查看建完索引后的文档、词以及一些统计数据等
- Ireval:评测工具
IndriBuildIndex
<index></index>
存放索引将要存放的位置<corpus><path></path></corpus>
存放文档的位置1234567891011121314151617181920<parameters><memory>200m</memory><index>path of your index</index><stemmer><name>porter</name><!-- <name>krovetz</name> --></stemmer><corpus><path>path of your corpus</path><class>xml</class></corpus><field><name>title</name></field><field><name>abstract</name></field><stopper><word>a</word><word>an</word><word>this</word><word>in</word></stopper></parameters>建立索引:
path_of_IndriBuildIndex.exe path_of_index_parameters.xml
IndriRunQuery
<index></index>
存放之前建立好的索引位置<query><text></text></query>
存放query内容123456789101112131415<parameters><rule>method:dirichlet,mu:1000</rule><!-- <rule>method:jm,lambda:0.4</rule> --><!-- <rule>method:twostage,mu:1500,lambda:0.4</rule> --><!-- <baseline>tfidf,k1:1.0,b:0.3</baseline> --><!-- <baseline>okapi,k1:1.0,b:0.3,k3:7</baseline> --><index>C:/Users/heguoxiu/Desktop/ir/test/Indri</index><count>5</count><query><number>1</number><text>Result Diversification</text></query><trecFormat>true</trecFormat><runID>indri_query_sample</runID></parameters>提交查询:
path_of_IndriRunQuery.exe path_of_query_parameters.xml
dumpindex
- 一般的使用格式:
dumpindex <repository_path> <command> [<argument>]*
- 查看倒排索引的内容:
dumpindex path_of_index invlist
- 查看索引的词典:
dumpindex path_of_index vocabulary
- 查看索引的简单统计:
dumpindex path_of_index stats
- 其他
- 一般的使用格式:
Ireval
- 评价指标:MAP, P@N, NDCG
- 用法:
java -jar ireval.jar resultFile qrelFile