我试图制作一个获取互联网标记元素标题的正则表达式。特别是在link
中你怎么能看到桌子" Classifica"对于一些球队,我会抓住" Ultime 5 partite"如果用户在彩色框上重叠鼠标,则表单显示特定日期的团队结果。我会抓住这个标题课;所以我意识到这样的正则表达式:
我制作了这样的正则表达式:.giornata_1_casa = Val(Regex.Match(Content, "<a href=""(.*)"" class=""(.*)"" title=""(.*)"">[D|W|L]</a>").Groups(1).ToString)
但是回报0,我想抓住例如内容:尤文图斯 - 切沃维罗纳2 - 0 ,特别是每个元素标签。
这个正则表达式在网站页面上运行良好但在我之前发布的链接中以前不起作用。哪里出错?
答案 0 :(得分:0)
正则表达式是一个不适合手头任务的解决方案,因为您正在处理HTML解析,并且无法使用正则表达式定义HTML。例如,如果您在title
之前找到class
之前的元素,会发生什么?如果某个元素在title =
中有额外的空格或有title='bla'
而不是title="bla"
,会怎样?
有一百万次更改会破坏您的代码,同时仍然符合HTML规范。您在<a>
标记中引入了对HTML属性的确切顺序和语法的不必要依赖。
只需使用HTML或XML解析器。