如何从HTML中获取内容,删除其周围的元素。
我正在寻找使用VB6的示例
答案 0 :(得分:5)
您可以将Internet Explorer用作COM对象(不在屏幕上显示)。例如,获取HTML的纯文本版本:
Public Function Html2Text(ByVal Data _
As String) As String
Dim obj As Object
On Error Resume Next
Set obj = _
CreateObject("htmlfile")
obj.Open
obj.Write Data
Html2Text = obj.Body.InnerText
End Function
您还可以使用元素树来执行更复杂的操作。
图片来源:Karl Peterson Visual Studio Magazine。
答案 1 :(得分:2)
您可以使用正则表达式;构建模式并从HTML中提取所需的数据。在此链接中,您可能会了解如何在vb6 http://www.regular-expressions.info/vb.html
中使用正则表达式答案 2 :(得分:0)
HTML可能格式不正确,因此很难使用正则表达式删除标记。另一种方法是在VB中将Internet Explorer加载为COM对象,然后在Internet Explorer中加载HTML文档并使用它来遍历解释的元素树。