我有一个用C#构建的网络爬虫(我知道),它在处理通常由实际网络浏览器处理的许多功能方面变得相当复杂。也就是说,我没有什么可以解析传入的HTML并处理页面上嵌入的JavaScript命令。
我尝试了很多方法 - 从Noesis到Awesomium - 但似乎没有任何工作。我还犯了使用WinForms嵌入式Web浏览器控件的错误,加载时的内存泄漏(我正在运行并行任务)完全破坏了CLR。也就是说,它能够将页面作为普通浏览器进行处理,结果内容非常好 - 不可行,但最终结果内容已经确定。
那里是否有任何内容可以使用目标URL,或者理想情况下,接收通过HttpWebRequest下载的HTML内容并处理嵌入的JavaScript命令?
答案 0 :(得分:1)