如何在importIO中的抓取工具中使用抓取工具?
例如,有一个公司详细信息列表(分页),每个公司都有一个评论列表(它也是分页的)。
我需要抓住公司的详细信息以及每家公司"所有"评论。我怎样才能做到这一点?我需要两张桌子(公司和评论)吗?另外我如何使用importIO呢?
答案 0 :(得分:2)
不知道具体网站很难评论。例如,在网站上实施分页的方式将影响您获取数据的方式。 URL结构也将起到重要作用。
如果您可以在页面的HTML(查看源/检查元素)中看到所需的所有数据,则可以将该数据作为API / CSV。
所以你需要:
要回答更一般的问题:“我如何在importIO中的抓取工具中使用抓取工具?”。
简答题=是,但不是通过常规用户界面,您需要进行一些编码。
答案很长=是的!您可以创建我们称之为“链式API”的内容,该API从一次抓取的提取中获取URL,并将这些提取到第二个提取器中,以获取其余信息。那么你只需在你的帖子提取数据质量保证流程中记录匹配。
除非,您想要的所有数据都嵌入在一个URL中,您需要全部获取。在这种情况下,您正在寻找使用单行训练和大量Xpath的连接器,但它应该可以工作!
有关详细信息,您可能需要查看以下链接中的知识库文章: http://support.import.io/knowledgebase/topics/51287-tutorials
谢谢!