应用错误收集

时间：2010-02-19 15:46:10

标签： web-crawler

我目前迫切需要新闻文章来测试LSI实现（它是用外语编写的，所以通常没有正常的文件包可供使用）。

所以我需要一个给出起始网址的抓取工具，让我们说http://news.bbc.co.uk/跟随所有包含的链接并将其内容保存到.txt文件中，如果我们可以指定格式为UTF8我会在天堂。

我在这方面有0个专业知识，所以我请求你使用爬虫来完成这个任务。

答案 0 :(得分：1)

你要找的是“刮刀”，你必须写一个。更多的你可能违反了BBC's Terms of Use，就像任何人一样。

答案 1 :(得分：1)

您可以使用wget抓取该网站。然后通过一些HTML渲染器运行它（Lynx文本浏览器使用--dump-html选项充分完成工作）将HTML转换为TXT。您需要编写脚本以自行调用每个下载文件上的Lynx，但这应该很容易。