如何在import.io中正确设置xpath以进行抓取

时间:2015-05-30 08:57:52

标签: xpath web-scraping scrapy import.io

我正在尝试在Import.io中设置一个提取器,我很难让API发布。每次它告诉我它不能发布API并尝试使用xpaths。经过一些进一步的研究,我发现在craig列表页面上找到的标题链接的xpath保存在span标记中。 标签如下:

span[@class='pl']

我已尝试在import.io的xpath区域中为字段

设置以下内容
//span[@class='pl']

但无济于事。无论我似乎尝试什么,我实际上无法获得API发布。虽然我能够将数据导出到数据集,但我真的希望得到一个API来发布。

我想知道是否有人使用import.io成功地对craigs列表进行了一些小的刮擦?如果是这样,为了让API正确发布,有哪些步骤?

另外,作为旁注,我已经阅读了一些关于Scrapy的文章,但我对python一无所知,如何安装它,然后运行它,即使我找到了与此直接相关的特定代码片段题。任何人都对如何让Import.io发布API有任何见解?

1 个答案:

答案 0 :(得分:5)

因此,对于寻找这个问题答案的其他人来说,使用Import.io在Craig列表上设置正确的xpath标记的方法是将高级xpath覆盖设置为:

.//span[@class='pl']/.

现在我的问题是从Craig的列表中返回403错误 - 意思是禁止。