根据日期刮痧

时间:2015-04-09 17:40:43

标签: xpath web-scraping

我正在尝试从网站上抓取数据,这似乎没有标签中的许多条款。但是我仍然想知道是否有可能使用xpath从今天开始删除标题。

所以它只检索2015年9月4日的标题?

url:http://www.hltv.org/?pageid=96

1 个答案:

答案 0 :(得分:0)

由于日期是唯一的10/4 - 2015,您可以使用xpath的b找到contents()标记节点,请参阅html here

//b[contains(., '10/4 - 2015')]

然后根据这个节点你去它的父母和兄弟姐妹,smth。像这样(未经测试):

//b[contains(., '10/4 - 25')]/parent::div/siblings::div

更新

由于当前日期项目位于底部,此处符合html所有以下兄弟节点都与此数据相关(Google xpath sibling after

//b[contains(., '10/4 - 25')]/parent::div/following-sibling::div[@class='newsItem']

请参阅测试here。如果您想在中间获取div,请浏览this