从后面的代码中读取网站上的内容

时间:2014-11-23 19:41:20

标签: c# asp.net

您好我想问一下......有没有办法从网站上读取一些我不拥有的信息

就像我想阅读某个网站上每个页面的标题一样......我可以这样做吗?

不是一种只是为了阅读明文而没有html代码想要阅读的黑客攻击方式

我不知道该怎么做或怎么做我需要一个想法

有没有办法搜索几个网站中的特定单词和api用它来搜索网站

2 个答案:

答案 0 :(得分:1)

您仍然必须阅读HTML,因为标题的传输方式如何。

使用HttpWebRequest类向Web服务器和HttpWebResponse发出请求以获取响应,并使用GetResponseStream()方法发送响应。然后你需要以某种方式解析它。

查看HTMLAgilityPack以解析HTML。您可以使用它来从HTML中获取title元素并阅读它。然后,您可以获取页面中的所有锚元素,并确定下一个要访问其网站的主题元素以扫描标题。

答案 1 :(得分:0)

.Net可以使用强大的HTML解析器,可以与XPATH一起使用来读取HTML页面, HTML Agility pack

或者

你可以使用内置的WebClient类从页面获取数据作为字符串,然后进行字符串操作。