我想通过网站“模拟”导航并解析回复。
我只是想在开始之前确保我做了一些合理的事情,我看到了两个选项:
所以我最初使用的是HttpWebRequest,只是解析响应。
你们有什么想法?
还想问一下,我使用c#导致它是我最强的语言,但是用于从网站挖掘这些东西的常用语言是什么?
答案 0 :(得分:0)
如果你手动开始这样做,你可能最终会硬编码很多情况。尝试使用Html Agility Pack或其他支持xpath表达式的内容。
有很多挖掘和ETL工具可用于严格的数据挖掘需求。
答案 1 :(得分:0)
对于“用户模拟”,我建议使用Selenum web driver或PhantomJS,这要快得多,但在浏览器模拟方面有一些限制,而Selenium提供几乎100%的浏览器功能支持。
答案 2 :(得分:0)
如果您要从网站挖掘数据,您必须先做一些事情才能对您正在挖掘的网站“礼貌”。您必须遵守网站robots.txt中设置的规则,该规则几乎总是位于www.example.com/robots.txt。
然后使用HTML Agility Pack遍历网站。
或使用html2xhtml将html文档转换为xhtml。然后使用xml解析器遍历网站。
请记住:
关键字:robots.txt,绝对网址,HTML解析器,网址规范化,墨卡托计划。
玩得开心。