使用正则表达式从html中截取innertext

时间:2015-03-30 17:13:30

标签: regex html-parsing

我想使用正则表达式从html块中删除innertext。

这是一个块以及我最好的解析工作,远非完美:http://www.regexr.com/3andc

我想要提取的是字符串" 10非常受欢迎的Youtubers谁现在是百万富翁"

感谢。

1 个答案:

答案 0 :(得分:2)

请不要使用正则表达式来抓取HTML ... RegEx match open tags except XHTML self-contained tags

也许使用HTMLAgilityPack? https://htmlagilitypack.codeplex.com/

编辑:

然后试试这个: http://regexr.com/3ane7