种子网址爬行整个Youtube

时间:2017-04-09 13:01:23

标签: youtube web-crawler nutch

我正在尝试使用Apache Nutch抓取整个youtube.com。问题是我需要大量的种子网址,以确保几乎所有的Youtube网址都被抓取。但我找不到youtube的任何站点地图或网址列表。例如,要抓取apple.com,我可以提供Apple网站的stiemap网址作为种子 - http://www.apple.com/sitemap.xml

目前我唯一的种子是 - https://www.youtube.com。 我的regex-urlfilter.txt包含 -

+^https://www.youtube.com/?(watch\\?([^#\\&\\?]*).*)?$

我尝试了filetype:xml site:youtube.com这样的搜索,但没有出现。

任何人都可以帮我找到一种获取种子集合来抓取youtube.com的方法吗?

1 个答案:

答案 0 :(得分:0)

这是我得到的站点地图:https://www.youtube.com/yt/sitemap.xml

来自robots.txt。尝试跟踪从一个主页到另一个主页的传出链接

并反复进行。