我用过nutch和scrapy。他们需要种子URL来抓取。这意味着,人们应该已经知道将包含正在搜索的文本的网站/网页。
我的情况不同,我没有关于包含我要搜索的文字的网站/网页的先前信息。因此,我将无法使用种子URL通过nutch和scrapy等工具进行爬网。
是否有办法抓取指定文字的网站/网页,而不知道任何可能包含该文字的网站/网页?
答案 0 :(得分:1)
您可以解析the commoncrawl dataset。它包含数十亿个网页。他们的网站包含有关如何使用MapReduce执行此操作的示例。 除此之外,任何网络爬虫都需要有一些起点。
答案 1 :(得分:0)
您可以使用Google搜索API(https://developers.google.com/custom-search/json-api/v1/overview?csw=1)每天100次免费查询。搜索结果将采用JSON格式,您可以使用该格式将链接提供给您的刮刀。
答案 2 :(得分:0)
您可以使用请求模块获取数据。
在下面的示例中,我将从所有网站获取数据,其中包含“披萨”字样。
from bs4 import BeautifulSoup
soup = BeautifulSoup( r.text, 'html.parser' )
您可以使用BeautifulSoup库从检索到的数据(HTML数据)中提取任何类型的信息
soup.getText()
现在,如果您想要文本数据,可以使用此功能
modelerJs