为什么“我有我需要的东西”按钮有时在import.io中不起作用?

时间:2015-07-20 11:38:00

标签: import.io

我正在使用import.io并尝试根据此页面创建一个抓取工具: http://www.flashscore.com/match/IeHoEHvJ/#match-statistics;0

选择单行(每页一行),添加一些列并进行训练后,我想点击按钮“我有我需要的东西!”为了继续和训练另一个类似的页面。但是点击按钮是不可能的,就好像程序正在等我培训更多,即使没有必要(我已经在其他网站上成功完成了这个程序,但由于某种原因,这个页面不起作用) )。

知道为什么这不起作用?

当我尝试单击按钮但未成功时,请参阅import.io的以下屏幕截图: http://puu.sh/j5Vlm/fcc322549a.png

更新:得到了import.io facebook组的回复。由于robots.txt,构建抓取工具可能无法正常工作。但是构建一个Extractor似乎很有效,只需找到一种简单的方法来收集在提取器中使用的所有链接。

1 个答案:

答案 0 :(得分:4)

您尝试抓取的网站可能受robots.txt文件保护,因此Facebook群组告诉您我建议您尝试使用Extractor。

解决方案有点棘手,但应该可行。

  1. 创建一个Extractor以从the page you want data from中获取所需的数据。我做了它并且有效。

  2. 创建一个Extractor以获取this page

  3. 的链接:(我在这里:5ef25069-f0cc-4ac7-9184-b2a035277403)
  4. 然后将数据集下载为CSV,使用电子表格处理器打开它,并在链接末尾添加此文本字符串:#match-statistics;0

  5. 最后复制链接列表并返回import.io。在第一个API上选择Bulk Extract功能并粘贴URL列表。

  6. 它应该工作;)