如何从WebView生成的归档文件中提取html?

时间:2013-12-03 22:07:15

标签: html android-webview android-4.4-kitkat

我有完全相同的problem保存和阅读webView。

显然, webView.saveWebArchive(名称)会在Android 4.4中返回不同格式的文件。因此,我不能再使用WebArchiveReader

现在存档文件如下所示。

From: <Saved by WebKit>
Subject: Company Message[42]: NO EDA HTML Output
Date: Wed, 3 Dec 2013 14:36:47 -0500
MIME-Version: 1.0
Content-Type: multipart/related;
    type="text/html";
    boundary="----=_NextPart_6760_8467DEB7_081CADCA.490adfadsf92490"
 ------=_NextPart_000_8EafdasB7_081CADCA.4909adfas2490
 Content-Type: text/html
 Content-Transfer-Encoding: quoted-printable
12-03 14:36:56.927: I/System.out(14711): Content-Location: http://foo.test.com/my_url.fex
 <html><head><meta charset=3D"ISO-8859-1">
 <title>Company Message[42]:  NO EDA HTML Output</title>
 </head>
 <body>
 <hr><h3>
 Html Content 1
 </p></h3><hr>
 <pre><h5>
  Html Content 2
 </h5>
 </pre>
 <!--
 Html Content 3
 --></body></html>
 ------=_NextPart_000_8EB7_081CADCA.49092490--

似乎html内容已经包含在存档文件中。

但是,我可以使用given method将存档文件读取为String。 我想知道是否可以从这个文件中提取html部分。

1 个答案:

答案 0 :(得分:-1)

4.4 WebView以MHTML格式(http://en.wikipedia.org/wiki/MHTML)保存Web档案,这与以前版本的Android中使用的格式不同。

我自己没有经验,但是像http://www.chilkatsoft.com/mht-features.asp这样的东西可能会帮助你解析MHTML文件。