开发算法来分析单词

时间:2012-03-02 21:58:13

标签: algorithm nlp data-mining text-mining

我正在开展一个项目,我有7个“帖子”。这些帖子只是关于这个主题的一两句话。我需要做的是开发一种算法,查看帖子并识别某些趋势。 例如,“A很好,但会导致B.”我需要开发一种算法来识别A和B之间的联系。

但是,正如您可以从我的子标准说明中所知,我不知道如何解决这个问题。任何人都能指出我正确的方向吗?我查看了数据挖掘,但我不确定这是否是我需要的。

2 个答案:

答案 0 :(得分:8)

您所询问的是文本挖掘和自然语言处理方面的热门研究课题。但是,你的问题太普遍了。

你可以开始的最简单的事情可能是识别频繁出现在一个句子(或连续句子)中的单词。这至少会为你提供某种相关性。查看关联规则学习作为user1161595建议。聚类技术也可能有所帮助。首先,请查看cluster analysistext clustering

要提取单词之间的关系,您需要深入了解自然语言处理。您可以使用Google Scholar搜索有关文本挖掘,趋势分析和信息检索的相关研究。

此外,以下链接可能会让您了解您正在处理的内容:

至于实现,您可以查看Wikipedia中提到的开源框架。此外,还有很多机器学习和NLP库。

最后但并非最不重要的是,我相信很有可能某些类似于您正在寻找的东西已经被某人实施了。因此,使用正确的关键字进行Google搜索可以获得您想要的效果,而无需深入研究。

答案 1 :(得分:7)

您可以使用几种常见的数据挖掘技术。最简单的是Association Rule Learning

关联规则学习可识别出一起出现的内容。杂货店使用这种方法从杂货店收据中挖掘数据,以确定哪些物品通常一起购买,以便它们可以放置在商店的彼此附近。即薯片和莎莎,格雷厄姆饼干,棉花糖和巧克力,尿布和啤酒等......