我确信这已被问过十亿次,但我搜查了一下,但没有发现任何内容。
我想动态地擦除一些html页面,并将结果加载到我的数据库中。 jQuery看起来像是完美的库,但当然是在浏览器中运行,我希望在没有浏览器/用户交互的情况下这样做。
建议在服务器端完成此操作(在我的情况下为C#)?正则表达式似乎有点矫枉过正,并不一定适合这项任务。
谢谢, -ben
更新:
这个库看起来就像我追求的那样...但是我非常喜欢jQuery的工作方式。
答案 0 :(得分:4)
jQuery似乎是完成这个的完美库
我不确定这一点。 same origin policy将限制您仅在与提供javascript的域相同的域上抓取页面(这基本上限制了您自己的域和网页抓取,这是非常有限的)。最好使用服务器端语言来完成此任务和HTML解析库。根据您使用的服务器端语言,可能有不同的库。如果您在服务器上使用.NET,Html Agility Pack非常好。但无论你做什么和任何解决方案,你都可以选择一件事:don't use regular expressions用于解析HTML。