只从网站上抓取文字

时间:2011-08-08 07:27:58

标签: vb.net

我如何才能从网站html中获取文本,但只能获取文本而不是html?

我想抓住这个网站

http://kramansro.net/lunia/sites.html

我使用了这段代码

TextBox1.Text = WebBrowser2.DocumentText

但是当我抓住它时,就像这样出现了

sdfasdfad<br>asdfasdfa<br>dfasdf<br>aasd<br>fs<br>dfa<br>sdf<br>asdf<br>asd<br>f<br>as

但我希望它是这样的:

sdfasdfad
asdfasdfa
dfasdf
aasd
fs
dfa
sdf
asdf
asd
f
as

1 个答案:

答案 0 :(得分:0)

对于该特定用例,最简单的方法是

TextBox1.Text = WebBrowser2.DocumentText.Replace("<br>", vbCrLf);

如果您有更复杂的HTML,则应该查看Regular Expressions