如何从HTTPWebRequest中的页面中抓取文本?

时间:2011-12-22 19:40:56

标签: c# web-scraping

如何使用HTTPWebRequest从网站上抓取某些文本?

我有这个代码,但它只适用于HREF,我怎样才能使它与文本一起使用?

继承我的代码:

// setup variables for scraping
int startPos = 0, endPos = 0, length = 0;
string tempString = "";

// do the scraping
startPos = html.IndexOf("");
endPos = html.IndexOf(">", startPos);
length = endPos - startPos;
tempString = html.Substring(startPos, length);

例如,如果一个页面有这个代码,我怎么才能让它只刮掉1ddiariesareback?:

<s class="hash">#</s><b>the1ddiariesareback</b></span></a>

1 个答案:

答案 0 :(得分:4)

我建议您使用HTML Agility Pack为您下载并解析HTML。

您可以使用XPath或LINQ to XML语法查询对象模型。