我想分析给定的文档,以确定该文档是否包含我感兴趣的领域知识的内容或与领域知识无关的内容。
例如,我有一个包含Android操作系统数据的文档,我有一个域本体,它指定了关于android的完整知识。现在我必须找出我的文档对域有多少百分比的有效内容本体。
接近解决方案的一种方法是使用ANNIE(GATE)从文档中提取命名实体(NE),并将它们与域本体的实例进行比较,并找到有效内容的百分比。
答案 0 :(得分:1)
您可以将此视为document classification问题:
在这两种情况下,您可能希望通过提取前N个(例如10个)unigrams(不包括停靠点)和统计上显着的双字母组合来减少文档中的维度(术语)数量,并将它们用作单词包(朴素贝叶斯)或搜索查询(文档检索)。