使用哪种网络爬虫将网站上的新闻文章保存为.txt文件?

时间:2010-02-19 15:46:10

标签: web-crawler

我目前迫切需要新闻文章来测试LSI实现(它是用外语编写的,所以通常没有正常的文件包可供使用)。

所以我需要一个给出起始网址的抓取工具,让我们说http://news.bbc.co.uk/跟随所有包含的链接并将其内容保存到.txt文件中,如果我们可以指定格式为UTF8我会在天堂。

我在这方面有0个专业知识,所以我请求你使用爬虫来完成这个任务。

2 个答案:

答案 0 :(得分:1)

你要找的是“刮刀”,你必须写一个。更多的你可能违反了BBC's Terms of Use,就像任何人一样。

答案 1 :(得分:1)

您可以使用wget抓取该网站。然后通过一些HTML渲染器运行它(Lynx文本浏览器使用--dump-html选项充分完成工作)将HTML转换为TXT。您需要编写脚本以自行调用每个下载文件上的Lynx,但这应该很容易。