我正在寻找基于java的工具,用于从给定文章中提取相关标签。 我需要一个基本上可以尝试识别给定文章的主要主题和术语的工具。 谢谢你的帮助。
答案 0 :(得分:3)
检查以下关键词/主题提取软件/工具:
如果您想开发自己的主题检测系统,请查看LDA implementation in mallet(链接到正在运行的LDA示例,槌主页上的那个不适用于最新的mallet版)。
答案 1 :(得分:1)
您可以使用HtmlUnit来解析文章的HTML并查询您有兴趣搜索的文档部分。然后,您可以应用自己设计的简单算法来确定标签/关键字。
例如,split()
在空格上的文本,然后计算每个单词出现的次数。最常出现的词(忽略诸如“和”,“the”,“if”等等)是关键词的良好候选者。