针对tesseract hocr输出的Hpple XPath查询问题

时间:2013-03-27 16:39:45

标签: xpath hpple

我有以下html代码段

       <span class='ocr_line' id='line_11' title="bbox 0 482 377 539">
<span class='ocrx_word' id='word_34' title="bbox 0 484 51 539"><em>WORD1</em></span> 
<span class='ocrx_word' id='word_35' title="bbox 56 482 119 528">WORD2</span> 
<span class='ocrx_word' id='word_35' title="bbox 56 482 119 528"><em></em></span> 
<span class='ocrx_word' id='word_36' title="bbox 137 483 171 528"><strong><em>WORD3</em></strong></span> 
<span class='ocrx_word' id='word_37' title="bbox 176 482 244 528"><h1>WORD4</h1></span> 
</span> 

我希望xpath查询字符串能够获取单词1-4的bbox字符串和节点内容。我遇到了麻烦,因为这些单词与<em><strong> s嵌套,也可能是空的!感谢。

1 个答案:

答案 0 :(得分:0)

这可能是://@title | //text()