所有'ocrx_word'的XPath查询

时间:2014-02-08 20:37:48

标签: html xpath

我正在尝试构建一个XPathQuery以获取'ocrx_word'类中的所有内容。我尝试了一些变体并且没有找到任何工作,我收到Unable to Parse错误。

以下是我的HTML的样子。

<span class='ocr_line' id='line_3' title="bbox 165 201 443 219">
  <span class='ocrx_word' id='word_5' title="bbox 165 201 252 217">Associate</span> 
  <span class='ocrx_word' id='word_6' title="bbox 259 202 335 218">Director</span> 
  <span class='ocrx_word' id='word_7' title="bbox 341 203 358 218">of</span> 
  <span class='ocrx_word' id='word_8' title="bbox 361 203 443 219">Athletics</span> 
</span>

我想获取title属性和字符串。

Full HTML

NSString *htmlString = [tesseract getHOCRText];

NSData *tutorialsHtmlData = [htmlString dataUsingEncoding:NSASCIIStringEncoding];

// 2
TFHpple *tutorialsParser = [TFHpple hppleWithHTMLData:tutorialsHtmlData];
NSString *tutorialsXpathQueryString = @"//*[@class='ocrx_word']/text()";
NSArray *tutorialsNodes = [tutorialsParser searchWithXPathQuery:tutorialsXpathQueryString];

1 个答案:

答案 0 :(得分:1)

此XPath提取标题:

//*[@class='ocrx_word']/@title

这会提取文字:

//*[@class='ocrx_word']/text()

这是你需要的吗?