我有以下代码可以使用。
Imports System.IO
Imports System.Net
Module Module1
Sub Main()
Dim webClient1 As New WebClient()
webClient1.Encoding = System.Text.Encoding.ASCII
webClient1.DownloadFile("http://www.bmreports.com/servlet/com.logica.neta.bwp_MarketIndexServlet?displayCsv=true", "C:\temp\stream.txt")
End Sub
End Module
这会创建文本文件,但它也会下载所有html文件。如何省略这个并获取页面上显示的文字?
答案 0 :(得分:1)
您可以使用Regex从文档中删除所有html标记:
Dim source as string = File.ReadAllText("C:\temp\stream.txt")
'Clean html tags
source = StripTagsRegex(source)
'Strip function
Private Function StripTagsRegex(source As String) As String
Return Regex.Replace(source, "<.*?>", String.Empty)
End Function
这里有一个正则表达式的例子,它只提取文本: