在标题java库中获取重要的单词

时间:2012-01-27 21:21:13

标签: java text-analysis

是否存在任何带有给定文本(标题)的Java库,其中包含重要单词的集合。
编辑:重要的是我指的是定义句子主要思想的那个。 谢谢。

3 个答案:

答案 0 :(得分:4)

您可能需要查看Apache Mahout

您还可以在tf-idf model上阅读更多内容,这些内容通常用于与您描述的案例类似的案例。

编辑:有关Tf-Idf模型的更多信息:

tf-idf模型基本上说了两件事:

  1. 如果您的数据中出现多次术语,则可能很重要。 [TF]
  2. 如果一个术语出现在世界上很多次,那么预计它会在数据中出现 - 但是,如果它很少 - 并且它出现在您的数据中 - 则表明它是一个非常“重要”的[idf] < / LI>

    tf-idf模型利用这一假设,并根据tf,idf值给出每个术语的评级。
    要查找idf值,您可能希望为您的集合编制索引或使用某些搜索引擎API并根据结果数量估算每个术语的常见程度[请注意,引擎返回的数字并不准确,但是它可能被用作粗略估计]

答案 1 :(得分:2)

Topic models尝试对文档(或文档集合)执行此操作。我怀疑你可以用单个句子做很多事。

您可以尝试使用语义解析器(例如RelEx)来尝试获取主要主题/对象/等,但它仍然不是那么简单。

您尝试做的一些示例会有所帮助。 “定义主要观点”仍然很模糊 - 你在处理什么类型的句子?

答案 2 :(得分:2)

考虑到你只使用标题,我会想象任何 stop word这个词很重要。

也许您只是在寻找基本的停用词删除算法,而不是完整的文本分析算法?

仅仅取决于你需要多么复杂或“聪明”的东西。