Question

如何在给定的html文件中仅在网页中获取文本并删除所有标记，＆lt;＆gt; ，在这里我只能获得标签，＆lt;＆gt;在html文件中，如何以相反的方式工作（获取文本）。

tag_only = regexp(CharData, '<.*?>', 'match');

例如：

"<p><span class="dingus">&#9658;</span> put returns between paragraphs</p>StackExchange.ready(function () {
        StackExchange.using("postValidation", function () {
            StackExchange.postValidation.initOnBlurAndSubmit($('#post-form'), 2, 'answer');
        });

＆＃34;

输出：在段落之间放置回报

Answer 1

我不知道matlab，但您可以尝试更改正则表达式：

tag_only = regexp(CharData, '>.*?<', 'match');

或

tag_only = regexp(CharData, '>[^<]*?<', 'match');

或

tag_only = regexp(CharData, '>[^<]+<', 'match');

我同意使用python会更容易，请检查库ElementTree。

import xml.etree.ElementTree as etree
tree = etree.parse('file.xml')
root = tree.getroot()
for child in root:
    print(child.text)

我没有尝试过这段代码，但它离它不远。

Answer 2

您可以直接从Matlab（see）调用Java。

您可以选择多种Html解析器。选择一个。 This看起来没问题 - 但你有choice。

保存网站文本并删除源代码中的<tag> </tag>

2 个答案: