如何阅读和解析html文件?

时间:2013-12-12 11:32:35

标签: matlab

我有一个html文件,需要阅读它并访问一些值:

myHtml = 'toto.html';
readFile = fileread(myHtml);

现在解析html文件,你知道是否可以将html转换为xml然后使用xpath?

1 个答案:

答案 0 :(得分:1)

我不建议尝试将HTML转换为XML。它们是不同的格式,你可能会被烧毁。 HTML解析器存在,所以我们可以直接使用它们。

另外,为了完整性,请不要尝试使用正则表达式解析HTML。有关于在Matlab中解析HTML的Stack Overflow问题,答案推荐正则表达式。做无辜的小猫,并将它们调出来。

不幸的是,看起来Matlab没有HTML解析器作为其库的一部分。

幸运的是,您可以在Matlab中轻松利用Java代码!
有了它,Java HTML解析器是公平的游戏。看看jsoup或jtidy。捅this question

实际上,看看这个问题,再加上Comparison of HTML parsers维基百科文章(感谢@Daniel R!),看起来HTMLCleaner或Jtidy可能会将HTML清理为XML。同样,我不会打扰,只是直接解析HTML。