Question

我有一个html文件，需要阅读它并访问一些值：

myHtml = 'toto.html';
readFile = fileread(myHtml);

现在解析html文件，你知道是否可以将html转换为xml然后使用xpath？

Answer 1

我不建议尝试将HTML转换为XML。它们是不同的格式，你可能会被烧毁。 HTML解析器存在，所以我们可以直接使用它们。

另外，为了完整性，请不要尝试使用正则表达式解析HTML。有关于在Matlab中解析HTML的Stack Overflow问题，答案推荐正则表达式。做无辜的小猫，并将它们调出来。

不幸的是，看起来Matlab没有HTML解析器作为其库的一部分。

幸运的是，您可以在Matlab中轻松利用Java代码！
有了它，Java HTML解析器是公平的游戏。看看jsoup或jtidy。捅this question。

实际上，看看这个问题，再加上Comparison of HTML parsers维基百科文章（感谢@Daniel R！），看起来HTMLCleaner或Jtidy可能会将HTML清理为XML。同样，我不会打扰，只是直接解析HTML。