按主题搜索并从维基百科中的文章中提取关键字

时间:2009-08-22 05:54:52

标签: java keyword wikipedia text-extraction

我正在java中做一个项目,我必须处理一个维基百科转储文件。我正在寻找一个库来提取维基百科文章中的关键字......基本上我想阅读维基百科xml转储中的每个标记页面,并将其与主题和类别列表进行比较,如果正确,则选择它并添加对我的结果。我对阅读转储或写维基百科结果不感兴趣,只是我想知道任何允许我按维基百科文章的标题和文字搜索主题的库...例如...如果输入是“狗”我想要关于狗的维基百科文章,如果可能在狗类别下的任何页面。

如果为维基百科指定了一般用途的库,则无关紧要。我需要将wiki文本作为参数并收到一个关键字列表,包括类别......我发现一些维基百科库可以正常工作,如Wikipedia-MinerJava Wikipedia Library但我需要的第一个安装了mysql,我想分析文本而不将其保存到数据库中。

任何形式的帮助或建议都很受欢迎。 :)

1 个答案:

答案 0 :(得分:2)

看起来这是你最好的选择:Java Wikipedia Library