HTML是一种标记语言,混合了很多东西。但我只想从网站上提取人类可读数据进行一些内容分析。但我只能看到html代码。我可以逐个提取所有HTML标签以提取文本,并将图像输出。 (至少,我可以grep大部分数据,但不能插入javascript数据)而不是这样做,我可以有更有效的方法吗?感谢。
***使用java作为编程语言
答案 0 :(得分:1)
我最喜欢用于一般网站抓取的是BeutifulSoup扩展。这是其文档的链接。 2.1节解析HTML代码!
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html
答案 1 :(得分:0)
您可以尝试使用终端模式浏览器(如lynx)将网站呈现为纯文本,然后对其输出进行内容分析。
答案 2 :(得分:0)
根据HTML的复杂程度和结构,您可以创建一些XSLT http://www.w3schools.com/xsl/,将HTML转换为更具可读性的内容。