如何在给定的html文件中仅在网页中获取文本并删除所有标记,<> , 在这里我只能获得标签,<>在html文件中,如何以相反的方式工作(获取文本)。
tag_only = regexp(CharData, '<.*?>', 'match');
例如:
"<p><span class="dingus">►</span> put returns between paragraphs</p>StackExchange.ready(function () {
StackExchange.using("postValidation", function () {
StackExchange.postValidation.initOnBlurAndSubmit($('#post-form'), 2, 'answer');
});
&#34;
输出:在段落之间放置回报
答案 0 :(得分:0)
我不知道matlab,但您可以尝试更改正则表达式:
tag_only = regexp(CharData, '>.*?<', 'match');
或
tag_only = regexp(CharData, '>[^<]*?<', 'match');
或
tag_only = regexp(CharData, '>[^<]+<', 'match');
我同意使用python会更容易,请检查库ElementTree。
import xml.etree.ElementTree as etree
tree = etree.parse('file.xml')
root = tree.getroot()
for child in root:
print(child.text)
我没有尝试过这段代码,但它离它不远。
答案 1 :(得分:0)