从网站列表中获取<h1>并将其放入列表框</h1>

时间:2013-02-05 02:50:16

标签: vb.net http

我需要帮助从标题部分中的网站列表中取出h1,并将其放入Visual Basic / Studio中的列表框中。

网站数量相当高,所以我希望有多线程或其他相关内容。

网站html标题示例:

<header> 
            <a href="http://www.example.org/"><h1>Exmaple header I NEED TO GET THIS</h1></a>
            <p>Example and more gibberish below</p>
            <div class="hero-unit">
                <button data-toggle="modal" data-target="#download" class="btn btn-large btn-download"><i class="icon-unlock icon-white"></i> Instant Download</button>
                <div id="download" class="modal hide fade" aria-hidden="true">
                    <div class="modal-header">
                        <button type="button" class="close" data-dismiss="modal" aria-hidden="true">×</button>
                        <h3>Blahblahblargh</h3>
                    </div>
                    <div class="modal-body" id="gw_content">
                        <img src="./landingpage/_img/wheel-throb.gif" />
                    </div>
                    <div class="modal-footer">
                        <p>Derp</p>
                    </div>
                </div>
                <p>meow</p>
            </div>

我需要从上面的代码中获取h1。

我道歉,因为这可能有点复杂,我打算大力拓展这一点,我认为这将有利于我的自学经验。

我确实了解Visual Studio的基础知识,所以不要认为你必须教我如何制作表格:)

编辑:

我只需要标题中的h1标记。谢谢!

1 个答案:

答案 0 :(得分:1)

您应该尝试HtmlAgilityPack来解析HTML代码。 它可以通过NuGet Package Manager AddIn。

轻松安装

安装软件包并研究其部分功能后,我建议您使用HAPTestbed等工具来测试正则表达式。它将为您节省大量时间。


以下是您可以用作起点的基本示例:

Dim wc As New WebClient()
Dim html = wc.DownloadString("http://some-web-site.com/")
wc.Dispose()
Dim htmlDoc As New HtmlDocument()
htmlDoc.LoadHtml(html)
For Each h1Node In htmlDoc.DocumentNode.SelectNodes("//h1")
    ' Do Something...
Next