我正在使用import.io并尝试根据此页面创建一个抓取工具: http://www.flashscore.com/match/IeHoEHvJ/#match-statistics;0
选择单行(每页一行),添加一些列并进行训练后,我想点击按钮“我有我需要的东西!”为了继续和训练另一个类似的页面。但是点击按钮是不可能的,就好像程序正在等我培训更多,即使没有必要(我已经在其他网站上成功完成了这个程序,但由于某种原因,这个页面不起作用) )。
知道为什么这不起作用?
当我尝试单击按钮但未成功时,请参阅import.io的以下屏幕截图: http://puu.sh/j5Vlm/fcc322549a.png
更新:得到了import.io facebook组的回复。由于robots.txt,构建抓取工具可能无法正常工作。但是构建一个Extractor似乎很有效,只需找到一种简单的方法来收集在提取器中使用的所有链接。
答案 0 :(得分:4)
您尝试抓取的网站可能受robots.txt文件保护,因此Facebook群组告诉您我建议您尝试使用Extractor。
解决方案有点棘手,但应该可行。
创建一个Extractor以从the page you want data from中获取所需的数据。我做了它并且有效。
创建一个Extractor以获取this page
然后将数据集下载为CSV,使用电子表格处理器打开它,并在链接末尾添加此文本字符串:#match-statistics;0
最后复制链接列表并返回import.io。在第一个API上选择Bulk Extract功能并粘贴URL列表。
它应该工作;)