我正在尝试在Import.io中设置一个提取器,我很难让API发布。每次它告诉我它不能发布API并尝试使用xpaths。经过一些进一步的研究,我发现在craig列表页面上找到的标题链接的xpath保存在span标记中。 标签如下:
span[@class='pl']
我已尝试在import.io的xpath区域中为字段
设置以下内容//span[@class='pl']
但无济于事。无论我似乎尝试什么,我实际上无法获得API发布。虽然我能够将数据导出到数据集,但我真的希望得到一个API来发布。
我想知道是否有人使用import.io成功地对craigs列表进行了一些小的刮擦?如果是这样,为了让API正确发布,有哪些步骤?
另外,作为旁注,我已经阅读了一些关于Scrapy的文章,但我对python一无所知,如何安装它,然后运行它,即使我找到了与此直接相关的特定代码片段题。任何人都对如何让Import.io发布API有任何见解?
答案 0 :(得分:5)
因此,对于寻找这个问题答案的其他人来说,使用Import.io在Craig列表上设置正确的xpath标记的方法是将高级xpath覆盖设置为:
.//span[@class='pl']/.
现在我的问题是从Craig的列表中返回403错误 - 意思是禁止。