我试图使用Regex.Match从网站源代码中检索文件名 我有类似的东西来回溯页面标题:
string title = Regex.Match(f, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>", RegexOptions.IgnoreCase).Groups["Title"].Value;
f string正在重定向到我的页面..
所以我需要的是: 从此来源中检索文件名:
<br><p><b>Download:</b> 24 hours<br><b>Time Left for Download:</b> <span id='cd'></span></p><p>Click on the file name to begin download.</p><div class='linkbox'><ul><li><a href="http://site.com/file/y8Qi2Bw8SXPX/51423">blabla.pdf</a></li></div></ul>
<a id="facebookbtn-link" title="send to Facebook" href="http://www.facebook.com/sharer.php?u=http://site.com/product/komM8k" onclick="return popup(this)" ><img src="http://site/img/facebook.png" alt="Facebook" />Post on Facebook</a>
我需要检索blabla.pdf 问题是,页面总是更新文件名,所以每次都不会是同一个名字,所以我需要的是在&gt; blabla.pdf
之间重新命名。答案 0 :(得分:2)
详细说明SLaks答案。有一个名为HTML Agility包的包。它可以作为NuGet包。
这里有一个例子http://htmlagilitypack.codeplex.com/wikipage?title=Examples
答案 1 :(得分:0)
尝试这种模式:
<a href="[^>]+>(.+?)</a>
捕获的组($ 1)应该具有文件名
答案 2 :(得分:0)
由于您没有进行标记处理,而是寻找特定的锚定模式,我相信Regex是在这种情况下使用的好工具。这是一个可以完成工作的模式。
string data = @"<br><p><b>Download:</b> 24 hours<br><b>Time Left for Download:</b>
<span id='cd'></span></p><p>Click on the file name to begin download.</p><div class='linkbox'><ul><li>
<a href=""http://site.com/file/y8Qi2Bw8SXPX/51423"">blabla.pdf</a></li></div></ul>
<a id=""facebookbtn-link"" title=""send to Facebook""
href=""http://www.facebook.com/sharer.php?u=http://site.com/product/komM8k""
onclick=""return popup(this)"" ><img src=""http://site/img/facebook.png"" alt=""Facebook"" />Post on Facebook</a>";
Console.WriteLine (Regex.Match(data, @"(?:\>)(?<PDF>[^\.]+\.pdf)(?:\<)").Groups["PDF"].Value);
// blabla.pdf is outputed
编辑:匹配任何文件使用(注意指定的分组更改远离PDF )
Regex.Match(data, @"(?:\>)(?<File>[^\.]+\.[a-z]{3})(?:\</a\>)").Groups["File"].Value