我有一个自然语言处理项目,但为此我需要从雅虎新闻,谷歌新闻或博客等某些来源抓取许多网络文章......
我是一个java开发者(所以我宁愿使用java工具)。我想我可以自己解析每个源网站并使用HttpClient / XPath提取文章,但我有点懒惰:)是否有一种方法可以让我不必每个源都有一个解析器?
(我不仅对新文章感兴趣,而且对2000年至今的文章感兴趣)
答案 0 :(得分:4)
NLP最难的部分是获取可以使用的数据。其他一切都只是数学。
由于所涉及的所有版权问题,可能很难在每个新闻来源的网站上找到大量新闻文章。如果您不需要最近的新闻,最好的办法是查看语言数据联盟English Gigaword corpus;如果您在大学,可能已经存在关系,您可以免费使用这些数据。
如果您需要实际抓取并解析网站,现在您可能会发现您必须为各种新闻网站编写特定的解析器,以确保您获得正确的文本。但是,再一次网站开始使用HTML5,通过使用article tag来提取相关文本会更容易。
要进行实际抓取,this previous question可以为您指出一些有用的方向。