在webkit中根据上下文获取文本

时间:2013-03-31 03:19:11

标签: javascript webkit gtk range pygtk

我正在努力抓取机器人,我必须抓取网页并“推断”内容。

我有什么:

  1. Ubntu上提供的Webkit / python API及其完整的API,包括DOM访问和操作
  2. 我无法控制的网页
  3. webkit返回一个有趣的文本输入字段。
  4. 浏览器的受控环境 - 窗口大小/硬件已知。
  5. 我想做什么:

    在输入框之前获取最接近且可视的文本。如果您要手动执行此操作,这大致转换为在输入框之前单击并在屏幕上向上移动3/4行或大约1英寸。我可以说1英寸,因为我控制窗口大小和其他硬件。

    问题:

    由于DOM层次结构和CSS定位文本在视觉上更接近,因此页面标记可能并不总是更接近。如何模拟文本选择,就像用户手动操作一样?

    尝试范围,但问题是获得正确的元素,因为范围需要开始/结束元素。除了某些原因,当我以编程方式执行此操作时,我会收到javascript / comments其他漏洞,但是当我在屏幕上手动执行并检查浏览器的范围时,它不会发生。

0 个答案:

没有答案