我想使用正则表达式从html块中删除innertext。
这是一个块以及我最好的解析工作,远非完美:http://www.regexr.com/3andc
我想要提取的是字符串" 10非常受欢迎的Youtubers谁现在是百万富翁"
感谢。
答案 0 :(得分:2)
请不要使用正则表达式来抓取HTML ... RegEx match open tags except XHTML self-contained tags
也许使用HTMLAgilityPack? https://htmlagilitypack.codeplex.com/
编辑:
然后试试这个: http://regexr.com/3ane7