我首先要说的是我对此很新,所以如果有一个简单或明显的答案我会道歉。
我安装了import.io并且工作正常,但我遇到了问题。我正在尝试废弃的网站是http://hockeyanalysis.com/stats/index.php,您可以看到有几个下拉菜单。我感兴趣的两个是两队的数据,赛季和情况。
我想废除前5年的数据和每年的所有36种情况。是的,我知道这只是180种不同的可能性,我可以手工完成它们,但我正在将它作为一个学习机会。
这是其中一个网址的示例。 http://hockeyanalysis.com/stats/teamstats.php?db=201415&sit=5v5&disp=1
我知道db = 201415可以更改为201314,依此类推,而且我也知道sit = 5v5可以是5v5home,5v5road,5v5close等等。那些不遵循我认为的逻辑路径,但我可以简单地复制和粘贴它们。例如,我想做的是让db = 201415和sit = 5v5,5v5home,5v5road,然后更改db = 201314,201213并让import.io填写其他提供的。意思是,我会用5个例子来训练它,剩下的4个就可以了。
这可能吗?还有另一种方法可以解决这个问题吗?我很感激反馈。
答案 0 :(得分:2)
在此示例中,import.io可以为您提取该数据,但无法为您生成URL。
您需要使用具有批量提取功能的Extractor。 以下是有关此主题的知识库的链接: http://support.import.io/knowledgebase/articles/569499-extractor
可以在Excel或Google表格中轻松生成网址。
我为你创建了一个例子: https://docs.google.com/spreadsheets/d/17oZHwGhMHv7tYQJqaOI2FkJH2OePvyERipPtB8-GGlw/edit#gid=0
答案 1 :(得分:0)
您是否尝试过使用Extractor或Crawler? 因为抓取工具应该能够处理这个问题。
只需使用 db = {num} 和 sit = {alpha} 作为网址的一部分 从哪里提取数据 高级抓取工具设置。
这样的事情:
hockeyanalysis.com/stats/teamstats.php?db= {NUM}&安培;坐= {阿尔法}&安培; DISP = 1 $
这会告诉您的抓取工具只从匹配上述模板的网址获取数据。