应用错误收集

Scrapy - only scraping domain namess

时间：2019-03-14 11:40:05

标签： dns scrapy web-crawler

How can I implement scraping only domain names with Scrapy.

I am not interested in deep search of any domain.tld. My idea was only to use depth of 1 jump from index page of every domain - so direct links from homepage would be sufficient for links buffer.

I need as fast crawler as only can be.

I want to limit domains realm to .cz

Thank you.

1 个答案:

答案 0 :(得分：0)

您可以在DEPTH_LIMIT上使用SETTINGS参数，以将爬网限制为所需的深度。

https://docs.scrapy.org/en/latest/topics/settings.html?highlight=depth_limit

如果只想跳1个深度，则应设置DEPTH_LIMIT=2并使用selector或link_extractor选择链接。

例如： response.xpath('//a/@href').re(r'.*.example.com.*')

https://docs.scrapy.org/en/latest/topics/selectors.html https://docs.scrapy.org/en/latest/topics/spiders.html?highlight=link_extractor

Scrapy只抓取给定页面
Scrapy仅抓取基本域链接（或第一级链接）
Scrapy：只刮掉网站的部分内容
Scrapy仅返回最后一场比赛
Scrapy只抓取一页
使用Scrapy LinkExtractor（）查找特定的域扩展
在scrapy中使用一个蜘蛛爬网多个域并从db加载域
我只需要抓取数据值“值”
Scrapy - only scraping domain namess
How to scrape on two different domain using scrapy?

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？