需要一个XPATH用于文章文本,它有许多br标签,应该不考虑它并在最后一行之前选择前一行。但在少数情况下,由于额外的br标签,它不起作用。
//div[@id="artText"]/text()[last()-1]
在最后一行之前,有许多br标签,并且在整个网站上不一致。如何忽略br标签?
xml输入是:
<html>
<head>
<meta name="generator"
content="HTML Tidy for HTML5 (experimental) for Windows https://github.com/w3c/tidy-html5/tree/c63cc39" />
<title></title>
</head>
<body>
<div id='artTt' style='font-size: 12pt; line-height: 150%;' itemprop='articleBody'>
<br />
<br />
<div class='center_image' style='width:90%;' originw='198'>
<img src='//file.71_1519345637.jpg' border='0' hspace='0' vspace='0' width='100%' alt='???? ?? ???' />
</div>
<br />
<br />
<br />
<br />[? ???? & ???? ? ??? ??]</div>
</body>
</html>