我需要帮助从标题部分中的网站列表中取出h1,并将其放入Visual Basic / Studio中的列表框中。
网站数量相当高,所以我希望有多线程或其他相关内容。
网站html标题示例:
<header>
<a href="http://www.example.org/"><h1>Exmaple header I NEED TO GET THIS</h1></a>
<p>Example and more gibberish below</p>
<div class="hero-unit">
<button data-toggle="modal" data-target="#download" class="btn btn-large btn-download"><i class="icon-unlock icon-white"></i> Instant Download</button>
<div id="download" class="modal hide fade" aria-hidden="true">
<div class="modal-header">
<button type="button" class="close" data-dismiss="modal" aria-hidden="true">×</button>
<h3>Blahblahblargh</h3>
</div>
<div class="modal-body" id="gw_content">
<img src="./landingpage/_img/wheel-throb.gif" />
</div>
<div class="modal-footer">
<p>Derp</p>
</div>
</div>
<p>meow</p>
</div>
我需要从上面的代码中获取h1。
我道歉,因为这可能有点复杂,我打算大力拓展这一点,我认为这将有利于我的自学经验。
我确实了解Visual Studio的基础知识,所以不要认为你必须教我如何制作表格:)
编辑:
我只需要标题中的h1标记。谢谢!
答案 0 :(得分:1)
您应该尝试HtmlAgilityPack来解析HTML代码。
它可以通过NuGet Package Manager
AddIn。
安装软件包并研究其部分功能后,我建议您使用HAPTestbed等工具来测试正则表达式。它将为您节省大量时间。
以下是您可以用作起点的基本示例:
Dim wc As New WebClient()
Dim html = wc.DownloadString("http://some-web-site.com/")
wc.Dispose()
Dim htmlDoc As New HtmlDocument()
htmlDoc.LoadHtml(html)
For Each h1Node In htmlDoc.DocumentNode.SelectNodes("//h1")
' Do Something...
Next