我在抓取一个网站时遇到问题 - motoallegro
我希望获得此page
中所有广告的标题所以我在谷歌电子表格中设置公式:
=ImportXML("http://allegro.pl/samochody-149?order=qd&string=Primera+GT&search_scope=automotive&department=automotive";"//header/h2/a/span")
此公式始终返回#NA错误:未收到任何因XPath查询而导致的数据
但是,如果我尝试从同一页面获取其他数据,例如H1文本:
=ImportXML("http://allegro.pl/samochody-149?order=qd&string=Primera+GT&search_scope=automotive&department=automotive";"//h1/span")
结果是正确的:“Primera GT”
我想补充一点,xPath规则 - // header / h2 / a / span是正确的。我在几个firefox xPath插件上测试了它。
任何想法,为什么谷歌电子表格公式ImportXML与正确的xPath规则不返回正确的数据?
答案 0 :(得分:1)
Google似乎剥离了非{4}}和<header/>
等非HTML4标签。您可以使用<section/>
仅访问所需的标题。
试试这个XPath表达式:
<div id="listing">...</div>