如何从HTML页面源获取特定的html div标签?

时间:2011-06-08 16:50:26

标签: c# asp.net screen-scraping screen web-scraping

我使用Asp.net和C#并且能够在文本文件中使用webrequest和webresponse获取HTML页面的源代码,现在我想只获取一些元素或html标签而不是整个源代码,可以任意1在这帮我?如果可能的话,我们可以将元素和值保存在mysql数据库中。建议是否有任何有用的参考链接??

3 个答案:

答案 0 :(得分:1)

答案 1 :(得分:-2)

您需要将HTML与正则表达式匹配,然后将结果保存到所需位置。

请参阅:http://haacked.com/archive/2004/10/25/usingregularexpressionstomatchhtml.aspx

答案 2 :(得分:-4)

这是一个完整的教程,但链接提供了您当前要求的主题,也应该有一些示例

http://www.tizag.com/htmlT/htmldiv.php

<div id="menu" align="right" >
<a href="">HOME</a> | 
<a href="">CONTACT</a> | 
<a href="">ABOUT</a> |
<a href="">LINKS</a>
</div>

<div id="content" align="left" >
<h5>Content Articles</h5>
<p>This paragraph would be your content
 paragraph with all of your readable material.</p>
<h5 >Content Article Number Two</h5>
<p>Here's another content article right here.</p>
</div>