Question

他们有可能从页面获取非HTML内容吗？非html的意思是，除了html标签之外的页面中的单词/句子。

我可以使用

获取源代码

Dim sourceString As String = New System.Net.WebClient().DownloadString("SomeWebPage.com")

但是我怎样才能从这样的网页上获取非html内容？

Answer 1

如果html结构合理，这应该有用......

Dim myhtml As String = New System.Net.WebClient().DownloadString("http:\\www.test.com")
Dim plaintext As String = System.Text.RegularExpressions.Regex.Replace(myhtml, "<.*?>", "")

从页面获取非HTML内容

1 个答案: