无法使用ImportXML获取数据

时间:2013-02-11 02:06:26

标签: xml xpath import google-docs

我正在尝试使用google Docs电子表格中的以下公式从CraigsList中的帖子正文中获取文本,但保留一条错误消息“XPATH查询未返回任何数据。”

我正在使用的公式是,

= IMPORTXML(D2, “//部分[@ ID = 'postingbody']”)

其中D2有发布网址:http://losangeles.craigslist.org/wst/apa/3608091461.html

我看了几个参考来检查我的公式,但我无法弄清楚出了什么问题。任何帮助深表感谢。先谢谢你! :)

2 个答案:

答案 0 :(得分:0)

试试这个Xpath表达式:

//*[@id="postingbody"]/text()

答案 1 :(得分:0)

它可能只是craigslist阻止它,他们的刮擦规则非常严格。

您可以尝试两件事,您可能需要了解要提取的部分或格式化方式:

你可以尝试:= REGEXEXTRACT(连接(IMPORTXML(A1," // html")),"。避免诈骗(。 \ n?。* )不要")

或尝试:= importxml(A1," // html")

或者最后:= importxml(A1," // body")