如何使用文本挖掘进行文档分析?

时间:2011-10-04 11:44:54

标签: java text-mining

我想分析给定的文档,以确定该文档是否包含我感兴趣的领域知识的内容或与领域知识无关的内容。

例如,我有一个包含Android操作系统数据的文档,我有一个域本体,它指定了关于android的完整知识。现在我必须找出我的文档对域有多少百分比的有效内容本体。

接近解决方案的一种方法是使用ANNIE(GATE)从文档中提取命名实体(NE),并将它们与域本体的实例进行比较,并找到有效内容的百分比。

  1. 你能否提出我可以使用的其他更好的技巧?
  2. 是否有其他开源API可用?我试过, Lingpipe ,但我不能在商业产品中使用它。
  3. 是否有此类可用的开源应用程序?我搜索了很多,但我找不到任何申请。

1 个答案:

答案 0 :(得分:1)

您可以将此视为document classification问题:

document retrieval问题:

  • 实际上,您正在比较文档和本体类之间的co-sine similarity。您可以使用Lucene作为本体文档存储引擎的基础。

在这两种情况下,您可能希望通过提取前N个(例如10个)unigrams(不包括停靠点)和统计上显着的双字母组合来减少文档中的维度(术语)数量,并将它们用作单词包(朴素贝叶斯)或搜索查询(文档检索)。