从页面获取非HTML内容

时间:2014-10-31 05:46:21

标签: javascript html asp.net regex vb.net

他们有可能从页面获取非HTML内容吗?非html的意思是,除了html标签之外的页面中的单词/句子。

我可以使用

获取源代码
Dim sourceString As String = New System.Net.WebClient().DownloadString("SomeWebPage.com")

但是我怎样才能从这样的网页上获取非html内容?

1 个答案:

答案 0 :(得分:0)

如果html结构合理,这应该有用......

Dim myhtml As String = New System.Net.WebClient().DownloadString("http:\\www.test.com")
Dim plaintext As String = System.Text.RegularExpressions.Regex.Replace(myhtml, "<.*?>", "")