使用导入IO爬网数据

时间:2014-10-06 13:30:59

标签: web-crawler webpage extraction

如何在importIO中的抓取工具中使用抓取工具?

例如,有一个公司详细信息列表(分页),每个公司都有一个评论列表(它也是分页的)。

我需要抓住公司的详细信息以及每家公司"所有"评论。我怎样才能做到这一点?我需要两张桌子(公司和评论)吗?另外我如何使用importIO呢?

1 个答案:

答案 0 :(得分:2)

不知道具体网站很难评论。例如,在网站上实施分页的方式将影响您获取数据的方式。 URL结构也将起到重要作用。

如果您可以在页面的HTML(查看源/检查元素)中看到所需的所有数据,则可以将该数据作为API / CSV。

所以你需要:

  1. 在这里分享网址(加上奖励积分架构)
  2. 发送电子邮件至support@import.io并附上具体信息
  3. 要回答更一般的问题:“我如何在importIO中的抓取工具中使用抓取工具?”。

    简答题=是,但不是通过常规用户界面,您需要进行一些编码。

    答案很长=是的!您可以创建我们称之为“链式API”的内容,该API从一次抓取的提取中获取URL,并将这些提取到第二个提取器中,以获取其余信息。那么你只需在你的帖子提取数据质量保证流程中记录匹配。

    除非,您想要的所有数据都嵌入在一个URL中,您需要全部获取。在这种情况下,您正在寻找使用单行训练和大量Xpath的连接器,但它应该可以工作!

    有关详细信息,您可能需要查看以下链接中的知识库文章: http://support.import.io/knowledgebase/topics/51287-tutorials

    谢谢!