Question

我正在尝试使用google Docs电子表格中的以下公式从CraigsList中的帖子正文中获取文本，但保留一条错误消息“XPATH查询未返回任何数据。”

我正在使用的公式是，

= IMPORTXML（D2， “//部分[@ ID = 'postingbody']”）

我看了几个参考来检查我的公式，但我无法弄清楚出了什么问题。任何帮助深表感谢。先谢谢你！：）

Answer 1

试试这个Xpath表达式：

//*[@id="postingbody"]/text()

Answer 2

它可能只是craigslist阻止它，他们的刮擦规则非常严格。

您可以尝试两件事，您可能需要了解要提取的部分或格式化方式：

你可以尝试：= REGEXEXTRACT（连接（IMPORTXML（A1，＆＃34; // html＆＃34;）），＆＃34;。避免诈骗（。 \ n？。* ）不要＆＃34;）

或尝试：= importxml（A1，＆＃34; // html＆＃34;）

或者最后：= importxml（A1，＆＃34; // body＆＃34;）