我正在开展一个项目,我有7个“帖子”。这些帖子只是关于这个主题的一两句话。我需要做的是开发一种算法,查看帖子并识别某些趋势。 例如,“A很好,但会导致B.”我需要开发一种算法来识别A和B之间的联系。
但是,正如您可以从我的子标准说明中所知,我不知道如何解决这个问题。任何人都能指出我正确的方向吗?我查看了数据挖掘,但我不确定这是否是我需要的。
答案 0 :(得分:8)
您所询问的是文本挖掘和自然语言处理方面的热门研究课题。但是,你的问题太普遍了。
你可以开始的最简单的事情可能是识别频繁出现在一个句子(或连续句子)中的单词。这至少会为你提供某种相关性。查看关联规则学习作为user1161595建议。聚类技术也可能有所帮助。首先,请查看cluster analysis和text clustering。
要提取单词之间的关系,您需要深入了解自然语言处理。您可以使用Google Scholar搜索有关文本挖掘,趋势分析和信息检索的相关研究。
此外,以下链接可能会让您了解您正在处理的内容:
至于实现,您可以查看Wikipedia中提到的开源框架。此外,还有很多机器学习和NLP库。
最后但并非最不重要的是,我相信很有可能某些类似于您正在寻找的东西已经被某人实施了。因此,使用正确的关键字进行Google搜索可以获得您想要的效果,而无需深入研究。
答案 1 :(得分:7)
您可以使用几种常见的数据挖掘技术。最简单的是Association Rule Learning。
关联规则学习可识别出一起出现的内容。杂货店使用这种方法从杂货店收据中挖掘数据,以确定哪些物品通常一起购买,以便它们可以放置在商店的彼此附近。即薯片和莎莎,格雷厄姆饼干,棉花糖和巧克力,尿布和啤酒等......