我正在尝试使用Apache Nutch抓取整个youtube.com。问题是我需要大量的种子网址,以确保几乎所有的Youtube网址都被抓取。但我找不到youtube的任何站点地图或网址列表。例如,要抓取apple.com
,我可以提供Apple网站的stiemap网址作为种子 - http://www.apple.com/sitemap.xml
目前我唯一的种子是 - https://www.youtube.com
。
我的regex-urlfilter.txt
包含 -
+^https://www.youtube.com/?(watch\\?([^#\\&\\?]*).*)?$
我尝试了filetype:xml site:youtube.com
这样的搜索,但没有出现。
任何人都可以帮我找到一种获取种子集合来抓取youtube.com的方法吗?
答案 0 :(得分:0)