带有下拉菜单的import.io网络爬虫

时间:2015-07-04 15:59:13

标签: web-crawler import.io

我首先要说的是我对此很新,所以如果有一个简单或明显的答案我会道歉。

我安装了import.io并且工作正常,但我遇到了问题。我正在尝试废弃的网站是http://hockeyanalysis.com/stats/index.php,您可以看到有几个下拉菜单。我感兴趣的两个是两队的数据,赛季和情况。

我想废除前5年的数据和每年的所有36种情况。是的,我知道这只是180种不同的可能性,我可以手工完成它们,但我正在将它作为一个学习机会。

这是其中一个网址的示例。 http://hockeyanalysis.com/stats/teamstats.php?db=201415&sit=5v5&disp=1

我知道db = 201415可以更改为201314,依此类推,而且我也知道sit = 5v5可以是5v5home,5v5road,5v5close等等。那些不遵循我认为的逻辑路径,但我可以简单地复制和粘贴它们。例如,我想做的是让db = 201415和sit = 5v5,5v5home,5v5road,然后更改db = 201314,201213并让import.io填写其他提供的。意思是,我会用5个例子来训练它,剩下的4个就可以了。

这可能吗?还有另一种方法可以解决这个问题吗?我很感激反馈。

2 个答案:

答案 0 :(得分:2)

在此示例中,import.io可以为您提取该数据,但无法为您生成URL。

您需要使用具有批量提取功能的Extractor。 以下是有关此主题的知识库的链接: http://support.import.io/knowledgebase/articles/569499-extractor

可以在Excel或Google表格中轻松生成网址。

我为你创建了一个例子: https://docs.google.com/spreadsheets/d/17oZHwGhMHv7tYQJqaOI2FkJH2OePvyERipPtB8-GGlw/edit#gid=0

答案 1 :(得分:0)

您是否尝试过使用Extractor或Crawler? 因为抓取工具应该能够处理这个问题。

只需使用 db = {num} sit = {alpha} 作为网址的一部分 从哪里提取数据 高级抓取工具设置。

这样的事情:

  

hockeyanalysis.com/stats/teamstats.php?db= {NUM}&安培;坐= {阿尔法}&安培; DISP = 1 $

这会告诉您的抓取工具只从匹配上述模板的网址获取数据。