html - html代码里面的主要文字

我正在尝试获取html代码的主要文本。主要我的意思是 - 只有文本不是图像的链接或注释。例如，假设我只想要this网站的主要文章 - 我如何只获得开头部分，历史部分是标记部分等。没有参见或参考文献。

问题：

我尝试了这个Xpath模式，但是它给了我额外的文本，它在所有的html代码中都不起作用：＆＃34; // body / div / div＆＃34;
我对HTML代码不是很熟悉所以我有点猜测Xpath模式。我知道问题不是很明确但是......谢谢：）