应用错误收集

时间：2012-02-29 01:31:25

标签： java html

HTML是一种标记语言，混合了很多东西。但我只想从网站上提取人类可读数据进行一些内容分析。但我只能看到html代码。我可以逐个提取所有HTML标签以提取文本，并将图像输出。（至少，我可以grep大部分数据，但不能插入javascript数据）而不是这样做，我可以有更有效的方法吗？感谢。

***使用java作为编程语言

答案 0 :(得分：1)

我最喜欢用于一般网站抓取的是BeutifulSoup扩展。这是其文档的链接。 2.1节解析HTML代码！

答案 1 :(得分：0)

您可以尝试使用终端模式浏览器（如lynx）将网站呈现为纯文本，然后对其输出进行内容分析。

答案 2 :(得分：0)

根据HTML的复杂程度和结构，您可以创建一些XSLT http://www.w3schools.com/xsl/，将HTML转换为更具可读性的内容。