我想解析来自给定文本的网址
输入文字: -
<h3 class="r"> <a
href="/url?q=http://rakesh.agrawal-family.com/papers/vldbj03watermark.pdf&sa=U&ei=m2laUfD2AdDorQf0rYHoDw&ved=0CBoQFjAA&usg=AFQjCNFJOQCS471sWjxy5CkNbzDxzcD66A">
<h3 class="r"> <a
href="/url?q=http://www.cse.ust.hk/vldb2002/VLDB2002-proceedings/papers/S05P03.pdf&sa=U&ei=m2laUfD2AdDorQf0rYHoDw&ved=0CCIQFjAD&usg=AFQjCNHbfCk_51dKLupvs3KVVEDboK54xg">
<h3 class="r"> <a
href="/url?q=http://cvml.unige.ch/publications/postscript/99/VoloshynovskiyPereiraPun_eww99.pdf&sa=U&ei=m2laUfD2AdDorQf0rYHoDw&ved=0CCYQFjAE&usg=AFQjCNGt54TSNY93PXgd4u4L3-E6C6P2jw">
预期产出:
http://rakesh.agrawal-family.com/papers/vldbj03watermark.pdf
http://www.cse.ust.hk/vldb2002/VLDB2002-proceedings/papers/S05P03.pdf
http://cvml.unige.ch/publications/postscript/99/VoloshynovskiyPereiraPun_eww99.pdf
示例代码: -
Match match = Regex.Match(input, @"<h3 class=""r""> <a href=""/url\?q=(.*?)&", RegexOptions.IgnoreCase);
while (match.Success)
{
// Finally, we get the Group value and display it.
string key = match.Groups[1].Value;
Console.WriteLine(key);
match = match.NextMatch();
答案 0 :(得分:0)
请注意,不建议混合HTML和正则表达式。
但是如果你正在寻找快速黑客,你可以使用这个正则表达式:
url\?q=\*\*[\'"]?([^\'" >]+)\*\*
答案 1 :(得分:0)
RegExs构建DFA,因此相当昂贵, 如果你需要从已知模式中提取数据,可以使用它,
url=line[i].substring(line[i].indexOf("q=")+1, line[i].indexOf(">\""));
基本上使用索引的线性搜索而不是复杂的DFA