保存网站文本并删除源代码中的<tag> </tag>

时间:2014-04-26 15:00:12

标签: matlab matlab-figure

如何在给定的html文件中仅在网页中获取文本并删除所有标记,&lt;&gt; , 在这里我只能获得标签,&lt;&gt;在html文件中,如何以相反的方式工作(获取文本)。

tag_only = regexp(CharData, '<.*?>', 'match');

例如:

"<p><span class="dingus">&#9658;</span> put returns between paragraphs</p>StackExchange.ready(function () {
        StackExchange.using("postValidation", function () {
            StackExchange.postValidation.initOnBlurAndSubmit($('#post-form'), 2, 'answer');
        });

&#34;

输出:在段落之间放置回报

2 个答案:

答案 0 :(得分:0)

我不知道matlab,但您可以尝试更改正则表达式:

tag_only = regexp(CharData, '>.*?<', 'match');

tag_only = regexp(CharData, '>[^<]*?<', 'match');

tag_only = regexp(CharData, '>[^<]+<', 'match');

我同意使用python会更容易,请检查库ElementTree。

import xml.etree.ElementTree as etree
tree = etree.parse('file.xml')
root = tree.getroot()
for child in root:
    print(child.text)

我没有尝试过这段代码,但它离它不远。

答案 1 :(得分:0)

您可以直接从Matlab(see)调用Java。

您可以选择多种Html解析器。选择一个。 This看起来没问题 - 但你有choice