Question

我用过nutch和scrapy。他们需要种子URL来抓取。这意味着，人们应该已经知道将包含正在搜索的文本的网站/网页。

我的情况不同，我没有关于包含我要搜索的文字的网站/网页的先前信息。因此，我将无法使用种子URL通过nutch和scrapy等工具进行爬网。

是否有办法抓取指定文字的网站/网页，而不知道任何可能包含该文字的网站/网页？

Answer 1

您可以解析the commoncrawl dataset。它包含数十亿个网页。他们的网站包含有关如何使用MapReduce执行此操作的示例。除此之外，任何网络爬虫都需要有一些起点。

Answer 2

您可以使用Google搜索API（https://developers.google.com/custom-search/json-api/v1/overview?csw=1）每天100次免费查询。搜索结果将采用JSON格式，您可以使用该格式将链接提供给您的刮刀。

Answer 3

您可以使用请求模块获取数据。

在下面的示例中，我将从所有网站获取数据，其中包含“披萨”字样。

from bs4 import BeautifulSoup
soup = BeautifulSoup( r.text, 'html.parser' )

您可以使用BeautifulSoup库从检索到的数据（HTML数据）中提取任何类型的信息

soup.getText()

现在，如果您想要文本数据，可以使用此功能

modelerJs