标签: html xpath
我正在尝试获取html代码的主要文本。主要我的意思是 - 只有文本不是图像的链接或注释。例如,假设我只想要this网站的主要文章 - 我如何只获得开头部分,历史部分是标记部分等。没有参见或参考文献。
问题:
我尝试了这个Xpath模式,但是它给了我额外的文本,它在所有的html代码中都不起作用:" // body / div / div" 我对HTML代码不是很熟悉所以我有点猜测Xpath模式。我知道问题不是很明确但是......谢谢:)