应用错误收集

时间：2010-11-29 00:28:11

标签： java nlp web-crawler stanford-nlp

我有一个自然语言处理项目，但为此我需要从雅虎新闻，谷歌新闻或博客等某些来源抓取许多网络文章......

我是一个java开发者（所以我宁愿使用java工具）。我想我可以自己解析每个源网站并使用HttpClient / XPath提取文章，但我有点懒惰:)是否有一种方法可以让我不必每个源都有一个解析器？

（我不仅对新文章感兴趣，而且对2000年至今的文章感兴趣）

答案 0 :(得分：4)

NLP最难的部分是获取可以使用的数据。其他一切都只是数学。

由于所涉及的所有版权问题，可能很难在每个新闻来源的网站上找到大量新闻文章。如果您不需要最近的新闻，最好的办法是查看语言数据联盟English Gigaword corpus;如果您在大学，可能已经存在关系，您可以免费使用这些数据。

如果您需要实际抓取并解析网站，现在您可能会发现您必须为各种新闻网站编写特定的解析器，以确保您获得正确的文本。但是，再一次网站开始使用HTML5，通过使用article tag来提取相关文本会更容易。

要进行实际抓取，this previous question可以为您指出一些有用的方向。