我的html和xml知识有限,我试图在Google Spreadsheets上使用= ImportXML()来抓取一些网址来获取文本块。
以下是链接:http://www.worldbank.org/projects/P082167/agricultural-transition?lang=en&tab=overview
<div id="abstractmore" style="">
<h2>ABSTRACT*</h2>
<p>
The project aims to...be responsible for the general management of the project.<a href="javascript:;" id="rdless" class="more"> Read Less»</a>
</p>
</div>
我正在尝试提取完整的摘要。我使用了Chrome的检查元素工具并浏览了各种教程......我能够从我读过的内容中找到这些xpath:
//div[@id='abstractmore']/p/text()
//*[@id="abstractmore"]/p/text()
这些返回时出错:导入的内容为空。我完全迷失了如何找出xpath!?
答案 0 :(得分:0)
没有这样的@ id ='abstractmore',但是:
id="abstract"
and
<span class="more"><a href="javascript:;" id="rdmore" class="more"> Read More»</a></span>
然而,这没有帮助,不清楚为什么Google Spreadsheet功能不提取H2:
//*[@id="dataSections"]/*[@id="leftSection"]/*[@id="box2"]/*[@id="box2Inner"]/*[@id="tabContent"]/h2
可能出于同样的原因而不提取<p>
内容