我正在尝试制作一个网络scrpper,对于这个例子,它从Reuters.com上抓取新闻文章。我想得到标题和日期。我知道我最终只需从每个地址中提取源代码,然后使用类似JSoup的东西解析HTML。
我的问题是:我如何确保我为Reuters.com上的每篇新闻文章执行此操作?我怎么知道我已经点击了reuters.com的所有地址?是否有任何API可以帮助我解决这个问题?
答案 0 :(得分:1)
您所指的是网络抓取和网络抓取。你要做的是访问符合某些标准(爬行)的每个链接,然后刮掉内容(抓取)。我从来没有使用它们,但这里有两个用于工作的java框架
当然,在收集网址后,你必须使用jsoup(或simillar)来解析内容
<强>更新强> 请查看Sending cookies in request with crawler4j?以获取更好的抓取工具列表。 Nutch非常好,但如果您想要的唯一一件事就是抓取一个网站,那就太复杂了。 crawler4j非常简单,但我不知道它是否支持cookie(如果这对你很重要,那就是一个交易破坏者)。
答案 1 :(得分:0)
试试这个网站http://scrape4me.com/
我能够为标题生成此网址:http://scrape4me.com/api?url=http%3A%2F%2Fwww.reuters.com%2F&head=head&elm=&item[][DIV.topStory]=0&ch=ch