html代码里面的主要文字

时间:2014-04-20 13:42:31

标签: html xpath

我正在尝试获取html代码的主要文本。主要我的意思是 - 只有文本不是图像的链接或注释。例如,假设我只想要this网站的主要文章 - 我如何只获得开头部分,历史部分是标记部分等。没有参见或参考文献。

问题

  • 是否有任何"标签层次结构"那会让我看到主要文章吗?
  • 如果有这样的层次结构,它是否适合所有的html代码?或者每个人都有不同的方式来访问主文章?

我尝试了这个Xpath模式,但是它给了我额外的文本,它在所有的html代码中都不起作用:" // body / div / div"
我对HTML代码不是很熟悉所以我有点猜测Xpath模式。我知道问题不是很明确但是......谢谢:)

0 个答案:

没有答案