用于从文章中提取相关关键字/标签的java工具

时间:2011-11-27 15:56:32

标签: java metadata search-engine data-mining

我正在寻找基于java的工具,用于从给定文章中提取相关标签。 我需要一个基本上可以尝试识别给定文章的主要主题和术语的工具。 谢谢你的帮助。

2 个答案:

答案 0 :(得分:3)

检查以下关键词/主题提取软件/工具:

  • Kea - 关键字提取
  • Tmt - 斯坦福主题检测工具包(与Excel集成,用Scala编写的脚本),它支持半自动主题检测模式(用户的反馈)。
  • maui

如果您想开发自己的主题检测系统,请查看LDA implementation in mallet(链接到正在运行的LDA示例,槌主页上的那个不适用于最新的mallet版)。

答案 1 :(得分:1)

您可以使用HtmlUnit来解析文章的HTML并查询您有兴趣搜索的文档部分。然后,您可以应用自己设计的简单算法来确定标签/关键字。

例如,split()在空格上的文本,然后计算每个单词出现的次数。最常出现的词(忽略诸如“和”,“the”,“if”等等)是关键词的良好候选者。