我可以使用jsoup来解析非标准标记,例如<LOCATION>
,<PERSON>
或<ORGANIZATION>
吗?
这是我的语料库中的一个例句:
I HAD been hearing about vineyards in <LOCATION>Malibu</LOCATION> for some time,
but I wrote them off. Had to be a tourist gimmick, like
<PERSON>Knott</PERSON>'s <ORGANIZATION>Berry Farm</ORGANIZATION>
or the LaBrea Tar Pits. <LOCATION>Malibu</LOCATION> was the playground of the stars,
a surfers' mecca, but cabernet? No way.
我想提取类似的内容:
Location: Malibu
Person: Knott
Organization: Berry Farm
答案 0 :(得分:3)
如果它不是HTML规范的一部分,则默认的parse
方法将不会处理自定义标记。
但是,您可以告诉JSoup将其解析为XML:
Jsoup.parse(yourHtml, baseUriForLinks, Parser.xmlParser());
上面的命令将返回Document
,您可以使用自定义标记进行操作。
<强>其中:强>
yourHtml
- 自定义标记为String
baseUriForLinks
- HTML的基本网址(以便JSoup可以解析相关链接,如果有的话)也作为String