对于我正在处理的个人项目,我希望从网站上获取流量数据。有问题的网站在桌子上的单元格中显示这个。我可以简单地让程序连接到站点,打开页面,然后将该单元格的内容作为字符串获取吗?在.NET框架中主要使用C#。
答案 0 :(得分:2)
这是一种通常称为“网络抓取”的操作。您可以使用WebClient手动执行此操作:
using System.Net;
using (WebClient client = new WebClient ())
{
html = client.DownloadString(@"http://somesite.com/somepage.html");
}
然后解析字符串以查找所需的数据。这可能很容易或非常困难,具体取决于您正在抓取的页面的复杂程度。
更好的方法是使用像HTML Agility Pack这样的网络抓取库。
答案 1 :(得分:0)
假设它是一个简单的GET,使用System.Net.WebClient到DownloadString(...),然后使用RegExpr查找单元格的内容。
答案 2 :(得分:0)
看看WebFetch。
这是一个非常好的教程和示例代码,用于获取HTTP内容。