如何在网站中搜索某些特定链接(可能存在于pdf文件中)并抓取这些链接以获取其他信息?

时间:2014-01-14 21:05:00

标签: python parsing web-crawler

我有一项任务要完成。我需要制作一个Web爬虫类应用程序。我需要做的是将URL传递给我的应用程序。此网址是政府机构的网站。该网址还与该政府机构批准的其他个人代理机构有一些链接。我需要转到这些链接,并从该网站获取有关该机构的一些信息。我希望我能说清楚。现在我必须使这个应用程序通用。这意味着我不能仅为一个网站(政府机构)进行硬编码。我需要像任何给它的URL一样,它应该检查它,然后获取所有链接并继续。现在在某些网站上,这些链接以pdf格式出现,有些则出现在页面上。

我必须使用python。我不知道如何处理这个问题。我使用BeautifulSoup花费时间,但需要大量解析。其他选择是scrapy或斜纹。老实说,我是python的新手。我不知道哪一个更适合这项任务。所以任何人都可以帮助我选择正确的工具和正确的方法来解决这个问题。提前致谢

1 个答案:

答案 0 :(得分:1)

有关于使用Python构建Web抓取工具的plenty信息。 Python是一个很好的工具。

如果你搜索它们,网站上还有很多关于网络抓取工具的帖子。