从html中读取内容并在java中写入excel表

时间:2015-05-21 13:05:28

标签: java html excel parsing

请帮我阅读一个html文件,并使用java将其写入excel文件。我在网上搜索过,我只能复制表,我需要在其中读取和写入excel文件中的数据。

html文件中的内容

<title>**Deprecated Method Found**</title>
<h2>**Summary**</h2>
Deprecated API is error-prone and is a potential security threat and thus should not be used.   
<h2>**Description**</h2>
Old API is sometimes marked deprecated because its implementation is designed in a way that can be error-prone. Deprecated API should be avoided where possible.
<h2>**Security Implications**</h2>
Blocks of code that use deprecated API are designed in a careless manner and thus are a potential security threat.

我需要在单独的列中使用这些单独的标题,并在行中使用内容。

是否可以将此html解析为excel文件

1 个答案:

答案 0 :(得分:0)

尝试使用Java HTML Parser jsoup阅读HTML。然后,您可以将其保存为CSV(逗号分隔值)格式,可以在Excel中打开。

jsoup在元素

之后读取文本

使用

获取所有h2个元素
Elements h2s = document.select("h2");

然后迭代阅读标题所说内容的元素。如果此标题很重要,请使用以下代码获取该标记后面的文本。

String text = h2.nextSibling().toString();

在Excel中打开的示例CSV:

Sample CSV opened in Excel