Question

我正在尝试在Import.io中设置一个提取器，我很难让API发布。每次它告诉我它不能发布API并尝试使用xpaths。经过一些进一步的研究，我发现在craig列表页面上找到的标题链接的xpath保存在span标记中。标签如下：

span[@class='pl']

我已尝试在import.io的xpath区域中为字段

设置以下内容

//span[@class='pl']

但无济于事。无论我似乎尝试什么，我实际上无法获得API发布。虽然我能够将数据导出到数据集，但我真的希望得到一个API来发布。

我想知道是否有人使用import.io成功地对craigs列表进行了一些小的刮擦？如果是这样，为了让API正确发布，有哪些步骤？

另外，作为旁注，我已经阅读了一些关于Scrapy的文章，但我对python一无所知，如何安装它，然后运行它，即使我找到了与此直接相关的特定代码片段题。任何人都对如何让Import.io发布API有任何见解？

Answer 1

因此，对于寻找这个问题答案的其他人来说，使用Import.io在Craig列表上设置正确的xpath标记的方法是将高级xpath覆盖设置为：

.//span[@class='pl']/.

现在我的问题是从Craig的列表中返回403错误 - 意思是禁止。