他们有可能从页面获取非HTML内容吗?非html的意思是,除了html标签之外的页面中的单词/句子。
我可以使用
获取源代码Dim sourceString As String = New System.Net.WebClient().DownloadString("SomeWebPage.com")
但是我怎样才能从这样的网页上获取非html内容?
答案 0 :(得分:0)
如果html结构合理,这应该有用......
Dim myhtml As String = New System.Net.WebClient().DownloadString("http:\\www.test.com")
Dim plaintext As String = System.Text.RegularExpressions.Regex.Replace(myhtml, "<.*?>", "")