需要从HTML文档中提取文本消息

时间:2015-03-09 01:41:17

标签: html vb.net string chat data-extraction

您好,我有一个很长的HTML文档,这只是我感兴趣的部分:

<iframe class="goog-te-menu-frame skiptranslate" src="javascript:void(0)" frameborder="0" style="display: none; visibility: visible;"></iframe><div class="chatbox3"><div class="chatbox2"><div class="chatbox"><div class="logwrapper" style="top: 89px; margin-right: 168px;"><div class="logbox"><div style="position: relative; min-height: 100%;"><div class="logitem"><p class="statuslog">You're now chatting with a random stranger. Say hi!</p></div><div class="logitem"><p class="strangermsg"><strong class="msgsource">Stranger:</strong> <span>hii there</span></p></div><div class="logitem"><p class="strangermsg"><strong class="msgsource">Stranger:</strong> <span>nice to meet you</span></p></div><div class="logitem"><p class="strangermsg"><strong class="msgsource">Stranger:</strong> <span>this is a text</span></p></div><div class="logitem"><p class="youmsg"><strong class="msgsource">You:</strong> <span>this text should not be taken</span></p></div><div class="logitem"><p class="statuslog">Stranger has disconnected.</p></div><div class="logitem"><div class="statuslog">

输出如下:

你现在正和一个随机的陌生人聊天。打个招呼!

陌生人:hii那里

陌生人:很高兴见到你

陌生人:这是一篇文章

你:这篇文章不应该

陌生人已断开连接。

我想将Stranger发送的所有消息提取到字符串(Visual Basic)中,并忽略我发送的消息以及You are now chatting with a random stranger. Sai hi!Stranger has disconnected.等系统消息 我不知道如何处理这个并需要帮助,谢谢。

1 个答案:

答案 0 :(得分:-1)

如果其他人对此类操作感兴趣,我已设法通过将HTML代码应用于另一个Web浏览器来简化该过程,然后使用Document.Body.InnerHtml属性在richtextbox中获取文本输出,我可以轻松处理文本而不是处理HTML代码。

OmegleHTML.Text = Omegle.Document.Body.InnerHtml
WebBrowser1.Document.Body.InnerHtml = OmegleHTML.Text
Log.Text = WebBrowser1.Document.Body.OuterText

我还使用以下代码在聊天记录之前删除任何不相关的文字:

Dim SInd, Eind As Integer
SInd = 0
Eind = Log.Text.IndexOf("You're now chatting with a random stranger. Say hi!")
Log.Text = Log.Text.Remove(SInd, Eind)

这是我最接近的。如果您有更好的答案,请发布。