我正在尝试构建一个XPathQuery以获取'ocrx_word'
类中的所有内容。我尝试了一些变体并且没有找到任何工作,我收到Unable to Parse
错误。
以下是我的HTML的样子。
<span class='ocr_line' id='line_3' title="bbox 165 201 443 219">
<span class='ocrx_word' id='word_5' title="bbox 165 201 252 217">Associate</span>
<span class='ocrx_word' id='word_6' title="bbox 259 202 335 218">Director</span>
<span class='ocrx_word' id='word_7' title="bbox 341 203 358 218">of</span>
<span class='ocrx_word' id='word_8' title="bbox 361 203 443 219">Athletics</span>
</span>
我想获取title属性和字符串。
NSString *htmlString = [tesseract getHOCRText];
NSData *tutorialsHtmlData = [htmlString dataUsingEncoding:NSASCIIStringEncoding];
// 2
TFHpple *tutorialsParser = [TFHpple hppleWithHTMLData:tutorialsHtmlData];
NSString *tutorialsXpathQueryString = @"//*[@class='ocrx_word']/text()";
NSArray *tutorialsNodes = [tutorialsParser searchWithXPathQuery:tutorialsXpathQueryString];
答案 0 :(得分:1)
此XPath提取标题:
//*[@class='ocrx_word']/@title
这会提取文字:
//*[@class='ocrx_word']/text()
这是你需要的吗?