我正在使用Jsoup
将剪贴板值解析为HTML代码,但它不适用于subscript
和superscript
。举个例子:
标
Hello World (HTML:<b>Hello <sup>World</sup></b>
)
下标
Hello World (HTML:<b>Hello <sub>World</sub></b>
)
代码
result = rtfToHtml(new StringReader(streamToString((InputStream) contents.getTransferData(dfRTF))));
以上示例的结果是:
< html >
< head >
< style >
< !--
p.default {
size:3;
family:sansserif;
foreground:#000000;
bold:normal;
italic:;
}
-- >
< /style >
< /head >
< body >
< p class=default >
< span style="color: #000000; font-size: 14pt; font-family: ArialMT">
< b>Hello < /b>
< /span>
< span style="color: #000000; font-size: 11pt; font-family: ArialMT">
< b>World< /b>
< /span>
< /p>
< /body>
< /html>
知道如何使用Jsoup处理Superscript
和Subscript
。任何建议或参考都受到高度赞赏。
修改
Clipboard clipboard = Toolkit.getDefaultToolkit().getSystemClipboard();
Transferable contents = clipboard.getContents(null);
DataFlavor dfRTF = new DataFlavor("text/rtf", "Rich Formatted Text");
DataFlavor dfTxt = DataFlavor.stringFlavor;
boolean hasTransferableRTFText = (contents != null)
&& contents.isDataFlavorSupported(dfRTF);
boolean hasTransferableTxtText = (contents != null)
&& contents.isDataFlavorSupported(dfTxt);
if (hasTransferableRTFText) {
try {
result = rtfToHtml(new StringReader(streamToString((InputStream) contents.getTransferData(dfRTF))));
Document doc = Jsoup.parse(result);
}
}
修改
public static String rtfToHtml(Reader rtf) throws IOException { // From http://www.codeproject.com/Tips/136483/Java-How-to-convert-RTF-into-HTML
JEditorPane p = new JEditorPane();
p.setContentType("text/rtf");
EditorKit kitRtf = p.getEditorKitForContentType("text/rtf");
try {
kitRtf.read(rtf, p.getDocument(), 0);
kitRtf = null;
EditorKit kitHtml = p.getEditorKitForContentType("text/html");
Writer writer = new StringWriter();
kitHtml.write(writer, p.getDocument(), 0, p.getDocument().getLength());
return writer.toString();
} catch (BadLocationException e) {
e.printStackTrace();
}
return null;
}
答案 0 :(得分:2)
您的问题与JSoup无关,而与您的rtfToHtml函数无关。
您的函数不会生成&lt; sub&gt;和&lt; sup&gt;您期望的标签。 JSoup在此步骤中无法执行任何操作,因为预期的标记不在此处,因此您无法解析它们。
编辑:(及解决方案)
如果没有必要,您应跳过rtfToHTML步骤。如果剪贴板包含已经是HTML格式的数据,那么在rtf中要求它然后将其转换回HTML意味着在转换期间会丢失格式信息。
您可以直接以HTML格式获取剪贴板,以避免不必要的转换:
DataFlavor dfHTML = new DataFlavor("text/html; charset=Unicode");
boolean hasTransferableHTMLText = (contents != null) && contents.isDataFlavorSupported(dfHTML);
if (hasTransferableHTMLText)
{
InputStream is = (InputStream)contents.getTransferData(dfHTML);
String htmldata = org.apache.commons.io.IOUtils.toString(is, "Unicode");
Document doc = Jsoup.parse(htmldata);
System.out.println(doc.html());
//...
}
使用Chrome和FF的复制到剪贴板进行测试。两者都保持&lt; sub&gt;和&lt; sup&gt;你期望的标签。
<强> EDIT2:强>
IOUtils是指org.apache.commons.io.IOUtils
答案 1 :(得分:-1)
使用Jsoup的选择器获得所需的值。This链接可以帮助您。
Document doc = Jsoup.Connect("some url);
Elements sub= doc.select("sub");