我正在尝试从网站上抓取数据,这似乎没有标签中的许多条款。但是我仍然想知道是否有可能使用xpath从今天开始删除标题。
所以它只检索2015年9月4日的标题?
答案 0 :(得分:0)
由于日期是唯一的10/4 - 2015
,您可以使用xpath的b
找到contents()
标记节点,请参阅html here:
//b[contains(., '10/4 - 2015')]
然后根据这个节点你去它的父母和兄弟姐妹,smth。像这样(未经测试):
//b[contains(., '10/4 - 25')]/parent::div/siblings::div
由于当前日期项目位于底部,此处符合html所有以下兄弟节点都与此数据相关(Google xpath sibling after
)
//b[contains(., '10/4 - 25')]/parent::div/following-sibling::div[@class='newsItem']