哪个布局引擎用于在网页上查找html元素的坐标?

时间:2010-04-24 19:28:47

标签: c++ html webkit gecko

我正在做一些网络数据分类任务,并且正在考虑是否可以获得html元素的坐标,因为它们会出现在网络浏览器上而不考虑任何css或javascript在网页中提到。

我的编程语言是c ++ ,需要几百万页的结果,所以它必须快速。我知道有一个Microsoft COM组件,它在Web浏览器控件中呈现页面,然后可以查询不同html标签的位置。但这不适合我的情况,因为它首先渲染整个页面占用了大量的时间。

所以我发现,有开源布局引擎WebKit,Gecko可能会用于此。但这是一段巨大的代码,我需要有人指导我找到合适的类或正确的模块来查看以前曾做过的任何先前/类似的工作。另外,如果我想自定义现有代码以使用多个线程以使其更快,请告诉我们你认为是一个不错的选择。

感谢

1 个答案:

答案 0 :(得分:1)

通常,您会发现不同的页面呈现引擎会以自己的方式呈现html,结果会有所不同。

问题在于,如果您坚持使用任何具体的浏览器引擎,那么您要做的就是以某种方式将此引擎引入您的项目并使用引擎的界面来检索这些坐标。但是,这是一项艰巨的任务,因为您必须阅读大量文档并浏览数千个文件。

我认为正确的方法是在某个地方发布此任务,这是特定于您选择的页面呈现引擎。 (壁虎/ webkit的/...)

如果您更喜欢坚持使用特定于MS的东西,那么猜测它会更容易,但无法帮助您处理类似名称或您希望看到的代码块。在这种情况下,其他人可能会指导你。