应用错误收集

时间：2012-03-02 21:58:13

标签： algorithm nlp data-mining text-mining

我正在开展一个项目，我有7个“帖子”。这些帖子只是关于这个主题的一两句话。我需要做的是开发一种算法，查看帖子并识别某些趋势。例如，“A很好，但会导致B.”我需要开发一种算法来识别A和B之间的联系。

但是，正如您可以从我的子标准说明中所知，我不知道如何解决这个问题。任何人都能指出我正确的方向吗？我查看了数据挖掘，但我不确定这是否是我需要的。

答案 0 :(得分：8)

您所询问的是文本挖掘和自然语言处理方面的热门研究课题。但是，你的问题太普遍了。

你可以开始的最简单的事情可能是识别频繁出现在一个句子（或连续句子）中的单词。这至少会为你提供某种相关性。查看关联规则学习作为user1161595建议。聚类技术也可能有所帮助。首先，请查看cluster analysis和text clustering。

要提取单词之间的关系，您需要深入了解自然语言处理。您可以使用Google Scholar搜索有关文本挖掘，趋势分析和信息检索的相关研究。

此外，以下链接可能会让您了解您正在处理的内容：

至于实现，您可以查看Wikipedia中提到的开源框架。此外，还有很多机器学习和NLP库。

最后但并非最不重要的是，我相信很有可能某些类似于您正在寻找的东西已经被某人实施了。因此，使用正确的关键字进行Google搜索可以获得您想要的效果，而无需深入研究。

答案 1 :(得分：7)

您可以使用几种常见的数据挖掘技术。最简单的是Association Rule Learning。

关联规则学习可识别出一起出现的内容。杂货店使用这种方法从杂货店收据中挖掘数据，以确定哪些物品通常一起购买，以便它们可以放置在商店的彼此附近。即薯片和莎莎，格雷厄姆饼干，棉花糖和巧克力，尿布和啤酒等......