jsoup解析非典型标记

时间:2015-04-20 12:06:28

标签: java jsoup

我可以使用jsoup来解析非标准标记,例如<LOCATION><PERSON><ORGANIZATION>吗?

这是我的语料库中的一个例句:

I HAD been hearing about vineyards in <LOCATION>Malibu</LOCATION> for some time,  
but I wrote them off. Had to be a tourist gimmick, like  
<PERSON>Knott</PERSON>'s <ORGANIZATION>Berry Farm</ORGANIZATION>  
or the LaBrea Tar Pits. <LOCATION>Malibu</LOCATION> was the playground of the stars,  
a surfers' mecca, but cabernet? No way.

我想提取类似的内容:

Location: Malibu
Person: Knott
Organization: Berry Farm

1 个答案:

答案 0 :(得分:3)

如果它不是HTML规范的一部分,则默认的parse方法将不会处理自定义标记。

但是,您可以告诉JSoup将其解析为XML:

Jsoup.parse(yourHtml, baseUriForLinks, Parser.xmlParser());

上面的命令将返回Document,您可以使用自定义标记进行操作。

<强>其中:

yourHtml - 自定义标记为String

的HTML

baseUriForLinks - HTML的基本网址(以便JSoup可以解析相关链接,如果有的话)也作为String