导入IO-使用XPath显示"更多"内容

时间:2015-07-13 15:02:58

标签: xpath web-crawler import.io

我完全不知所措并向我们寻求帮助!

我使用Import.io抓取工具从TripAdvisor提取评论。然而,当我训练爬虫时,"更多"按钮无效。

以下是该页面的示例:[http://www.tripadvisor.co.uk/Hotel_Review-g295424-d306662-Reviews-Hilton_Dubai_Jumeirah_Resort-Dubai_Emirate_of_Dubai.html#REVIEWS][1]

以下是完整评论的X路:// * [@ id =" UR288083139"] / div [2] / div / div [3]

到更多按钮:  // * [@ id中=" review_288083139"] / DIV [1] / DIV [2] / DIV / DIV / DIV [3] / P /跨度

是否可以使用Xpath,以便完整审核包含在Import.io中?

1 个答案:

答案 0 :(得分:1)

您可以通过使用Crawler然后使用Extractor来实现此目的。这会将过程分为两部分。

  1. 创建一个您可以训练的抓取工具,以捕获网页上每次审核的链接。确保为列选择 link

    Sample review from the website

  2. 创建一个Extractor,以从您从抓取工具获得的链接中捕获完整的评论。

  3. 瞧!你收到了所有评论!

  4. 注意:如果您已经拥有了需要评论的页面的所有链接,那么最好使用Extractor而不是Crawler。这样,您可以将API链接到其他提取器。如果您不了解所有链接,则只需要一个抓取工具。

    希望这有帮助!