我想刮/抓(不知道哪个是最好的翻译)网站网址。例如,我想从每个网址获取:
www.Site.com/posts.html
包含www.Site.com/2015-04-01/1
所以我会输入软件www.Site.com
并将深度设置为2
并且需要网址www.Site.com/2015-04-01/1
所以......软件应该:
1)转到:www.Site.com/posts.html
2)找到匹配的网址:让我们说:
a)www.Site.com/2015-04-01/1/Working-Stuff.html
b)www.Site.com/2015-04-01/1/New-stuff.html
c)www.Site.com/2015-04-01/1/News.html
现在它转到第一个匹配的网址(a)并查找包含www.Site.com/2015-04-01/1
的其他网址。
所以例如它看起来像这样:
Main site: `www.Site.com/posts.html`
1)www.Site.com/2015-04-01/1/Working-Stuff.html
1a) www.Site.com/2015-04-01/1/Break.htm
1b) www.Site.com/2015-04-01/1/How-to.htm
1c) www.Site.com/2015-04-01/1/Lets-say.htm
1d) www.Site.com/2015-04-01/1/Gamer-life.htm
2) www.Site.com/2015-04-01/1/New-stuff.html
2a) www.Site.com/2015-04-01/1/My-Story-about.htm
3) www.Site.com/2015-04-01/1/News.html
3a) www.Site.com/2015-04-01/1/Go-to-hell.htm
3b) www.Site.com/2015-04-01/1/Leave.htm
当然我不需要预先分组1),2),2a)等。我只想抓住网址。
我用过:
A1网站刮刀 - 但是当我试图从......html
抓取时,它会削减.html
部分并且没有给我完整的网址列表:/