我一直在尝试在集体智慧领域学习文本挖掘和其他相关的东西。我有兴趣制作一个应用程序,它将扫描文档并在页面上显示相关的帖子/文章。
哪些算法有助于检索所需信息?
由于
/ A
答案 0 :(得分:2)
一种简单的方法是计算页面上的非常用单词及其实例。单词出现的越多,描述帖子内容的效果就越好。然后,您可以使用它来查找其他文章/帖子。
答案 1 :(得分:1)
您可以使用Resource Description Framework (RDF)。 RDF基础包含结构化知识和它们之间的联系。因此,您可以获取文本中每个单词的RDF记录,并将它们连接到图形中。具有最大边数和根节点数的节点(如果图形类似于树)将引用文档的主题。