抓取/抓取包含特定文字的网站/网页,但不包含任何此类网站/网页的先前信息

时间:2016-01-20 14:27:28

标签: python web-scraping scrapy screen-scraping nutch

我用过nutch和scrapy。他们需要种子URL来抓取。这意味着,人们应该已经知道将包含正在搜索的文本的网站/网页。

我的情况不同,我没有关于包含我要搜索的文字的网站/网页的先前信息。因此,我将无法使用种子URL通过nutch和scrapy等工具进行爬网。

是否有办法抓取指定文字的网站/网页,而不知道任何可能包含该文字的网站/网页?

3 个答案:

答案 0 :(得分:1)

您可以解析the commoncrawl dataset。它包含数十亿个网页。他们的网站包含有关如何使用MapReduce执行此操作的示例。 除此之外,任何网络爬虫都需要有一些起点。

答案 1 :(得分:0)

您可以使用Google搜索API(https://developers.google.com/custom-search/json-api/v1/overview?csw=1)每天100次免费查询。搜索结果将采用JSON格式,您可以使用该格式将链接提供给您的刮刀。

答案 2 :(得分:0)

您可以使用请求模块获取数据。

在下面的示例中,我将从所有网站获取数据,其中包含“披萨”字样。

from bs4 import BeautifulSoup
soup = BeautifulSoup( r.text, 'html.parser' )

您可以使用BeautifulSoup库从检索到的数据(HTML数据)中提取任何类型的信息

soup.getText()

现在,如果您想要文本数据,可以使用此功能

modelerJs