应用错误收集

自然语言/文本挖掘和Reddit /社交新闻网站

时间：2008-10-23 00:32:50

标签： nlp information-retrieval text-mining

我认为有大量与reddit或digg或news.google.com等网站相关的自然语言数据。

我已经对文本挖掘进行了一些研究，但是找不到如何使用这些工具来解析像reddit这样的东西。

你能提出什么样的应用程序？

3 个答案:

答案 0 :(得分：3)

我在过去发现，在Reddit或Digg等网站上挖掘数据的最佳方法是首先使用他们提供的开发人员API。通常，您对主题或趋势都有兴趣，获取该数据的唯一方法是通过已建立的公共接口。您还可以解析Feed，并将它们组合在一起，以发现您想要了解的90％。如果您想对通过API无法获得的数据进行深入研究，那么您应该准备花费大量时间围绕像cURL这样的工具编写自定义包装器。如果您有预算，您也可以打电话给他们，询问他们是否提供有关用户的付费研究数据。

答案 1 :(得分：1)

我从RSS开始，之后我可能会使用Nutch;实际上对数据的处理更多是你的召唤。

答案 2 :(得分：0)

这些都是好主意。我可以获取数据，但可以围绕它构建哪些应用程序？