Jsoup解析html下标和上标

时间:2013-12-20 08:40:05

标签: java html jsoup subscript superscript

我正在使用Jsoup将剪贴板值解析为HTML代码,但它不适用于subscriptsuperscript。举个例子:


Hello World (HTML:<b>Hello <sup>World</sup></b>

下标
Hello World (HTML:<b>Hello <sub>World</sub></b>

代码

result = rtfToHtml(new StringReader(streamToString((InputStream) contents.getTransferData(dfRTF))));

以上示例的结果是:

< html >
  < head >
    < style >
      < !--
        p.default {
          size:3;
          family:sansserif;
          foreground:#000000;
          bold:normal;
          italic:;
        }
      -- >
    < /style >
  < /head >
  < body >
    < p class=default >
      < span style="color: #000000; font-size: 14pt; font-family: ArialMT">
        < b>Hello < /b>
      < /span>
      < span style="color: #000000; font-size: 11pt; font-family: ArialMT">
        < b>World< /b>
      < /span>
    < /p>
  < /body>
< /html>

知道如何使用Jsoup处理SuperscriptSubscript。任何建议或参考都受到高度赞赏。

修改

        Clipboard clipboard = Toolkit.getDefaultToolkit().getSystemClipboard();
        Transferable contents = clipboard.getContents(null);
        DataFlavor dfRTF = new DataFlavor("text/rtf", "Rich Formatted Text");
        DataFlavor dfTxt = DataFlavor.stringFlavor;

        boolean hasTransferableRTFText = (contents != null)
                && contents.isDataFlavorSupported(dfRTF);
        boolean hasTransferableTxtText = (contents != null)
                && contents.isDataFlavorSupported(dfTxt);
if (hasTransferableRTFText) {
            try {
result = rtfToHtml(new StringReader(streamToString((InputStream) contents.getTransferData(dfRTF))));
Document doc = Jsoup.parse(result);
}
}

修改

public static String rtfToHtml(Reader rtf) throws IOException { // From http://www.codeproject.com/Tips/136483/Java-How-to-convert-RTF-into-HTML
        JEditorPane p = new JEditorPane();
        p.setContentType("text/rtf");
        EditorKit kitRtf = p.getEditorKitForContentType("text/rtf");
        try {
            kitRtf.read(rtf, p.getDocument(), 0);
            kitRtf = null;
            EditorKit kitHtml = p.getEditorKitForContentType("text/html");
            Writer writer = new StringWriter();
            kitHtml.write(writer, p.getDocument(), 0, p.getDocument().getLength());
            return writer.toString();
        } catch (BadLocationException e) {
            e.printStackTrace();
        }
        return null;
    }

2 个答案:

答案 0 :(得分:2)

您的问题与JSoup无关,而与您的rtfToHtml函数无关。

您的函数不会生成&lt; sub&gt;和&lt; sup&gt;您期望的标签。 JSoup在此步骤中无法执行任何操作,因为预期的标记不在此处,因此您无法解析它们。

编辑:(及解决方案)

如果没有必要,您应跳过rtfToHTML步骤。如果剪贴板包含已经是HTML格式的数据,那么在rtf中要求它然后将其转换回HTML意味着在转换期间会丢失格式信息。

您可以直接以HTML格式获取剪贴板,以避免不必要的转换:

DataFlavor dfHTML = new DataFlavor("text/html; charset=Unicode");
boolean hasTransferableHTMLText = (contents != null) && contents.isDataFlavorSupported(dfHTML);
if (hasTransferableHTMLText)
{
    InputStream is = (InputStream)contents.getTransferData(dfHTML);
    String htmldata = org.apache.commons.io.IOUtils.toString(is, "Unicode");  

    Document doc = Jsoup.parse(htmldata);
    System.out.println(doc.html());
    //...
}

使用Chrome和FF的复制到剪贴板进行测试。两者都保持&lt; sub&gt;和&lt; sup&gt;你期望的标签。

<强> EDIT2:

IOUtils是指org.apache.commons.io.IOUtils

答案 1 :(得分:-1)

使用Jsoup的选择器获得所需的值。This链接可以帮助您。

Document doc = Jsoup.Connect("some url);
Elements sub= doc.select("sub");