HTML到TXT库,模仿“lynx -dump”的输出?

时间:2010-11-12 02:15:00

标签: java html android html-parsing lynx

问题确实是那么具体。

我需要一个java中的库,它可以获取HTML内容并生成与Linux lynx程序生成的格式相同的文本。


我需要将第三方服务器提供的数据公开给Android上的最终用户。数据格式是古老的,格式错误的HTML,以至于我尝试使用java阅读它并偶尔失败(不可接受)。它每个月都在增长(预先安装排除),我无法说服他们改为“现代”的东西(XML等生活会很棒)。

最短路径:我写了一个类来在线使用W3 html2txt服务(谷歌搜索它)。它在应用程序上工作正常,直到我抱怨并注意到W3服务偶尔会失败。这不是什么大不了的事,但是黑盒逻辑希望输出采用这种“lynx like”文本格式。

所以我希望一个库在应用程序内部以“lynx style”进行转换(HTML-> TXT),并避免W3服务中断。此外,lynx输出可能是我见过的最好的,最有条理和最整洁的。

你们都知道吗?

2 个答案:

答案 0 :(得分:0)

不确定你的lynx风格是什么意思所以我可能会完全拒绝提交(如果是这样请原谅我)。

我前段时间使用了一些代码来检查HTML / XML文件(当时我只是在日志中引用它

InputStream in = context.getResources()。openRawResource(id); StringBuffer inLine = new StringBuffer(); InputStreamReader isr = new InputStreamReader(in); BufferedReader inRd = new BufferedReader(isr);

字符串文字; while((text = inRd.readLine())!= null){     inLine.append(文本);     inLine.append( “\ n”); } 附寄(); return inLine.toString();

我希望它有所帮助,但我觉得你需要更复杂的东西:P

答案 1 :(得分:0)

一年之后,我放弃了。答案是:无法处理,没有Java库。至少现在。

我正在关闭这个。谢谢你的关注。