我正在尝试使用google Docs电子表格中的以下公式从CraigsList中的帖子正文中获取文本,但保留一条错误消息“XPATH查询未返回任何数据。”
我正在使用的公式是,
= IMPORTXML(D2, “//部分[@ ID = 'postingbody']”)
其中D2有发布网址:http://losangeles.craigslist.org/wst/apa/3608091461.html
我看了几个参考来检查我的公式,但我无法弄清楚出了什么问题。任何帮助深表感谢。先谢谢你! :)
答案 0 :(得分:0)
试试这个Xpath
表达式:
//*[@id="postingbody"]/text()
答案 1 :(得分:0)
它可能只是craigslist阻止它,他们的刮擦规则非常严格。
您可以尝试两件事,您可能需要了解要提取的部分或格式化方式:
你可以尝试:= REGEXEXTRACT(连接(IMPORTXML(A1," // html")),"。避免诈骗(。 \ n?。* )不要")
或尝试:= importxml(A1," // html")
或者最后:= importxml(A1," // body")