应用错误收集

网络抓取只是一个特定的域

时间：2013-09-08 20:30:22

标签： html web screen-scraping jsoup scraper

我正在尝试制作一个网络scrpper，对于这个例子，它从Reuters.com上抓取新闻文章。我想得到标题和日期。我知道我最终只需从每个地址中提取源代码，然后使用类似JSoup的东西解析HTML。

我的问题是：我如何确保我为Reuters.com上的每篇新闻文章执行此操作？我怎么知道我已经点击了reuters.com的所有地址？是否有任何API可以帮助我解决这个问题？

2 个答案:

答案 0 :(得分：1)

您所指的是网络抓取和网络抓取。你要做的是访问符合某些标准（爬行）的每个链接，然后刮掉内容（抓取）。我从来没有使用它们，但这里有两个用于工作的java框架

http://wiki.apache.org/nutch/NutchTutorial
https://code.google.com/p/crawler4j/

当然，在收集网址后，你必须使用jsoup（或simillar）来解析内容

<强>更新请查看Sending cookies in request with crawler4j?以获取更好的抓取工具列表。 Nutch非常好，但如果您想要的唯一一件事就是抓取一个网站，那就太复杂了。 crawler4j非常简单，但我不知道它是否支持cookie（如果这对你很重要，那就是一个交易破坏者）。

答案 1 :(得分：0)

试试这个网站http://scrape4me.com/

我能够为标题生成此网址：http://scrape4me.com/api?url=http%3A%2F%2Fwww.reuters.com%2F&head=head&elm=&item[][DIV.topStory]=0&ch=ch