python的机械化可以提取与控件相关的文本吗?

时间:2012-04-30 17:21:20

标签: python web-crawler mechanize

我正在编写一个爬虫,并且我一直在遇到表单控件,机械化可以为我提供除类型之外的任何信息。有什么方法可以让我获得与控件相关的人类可读文本吗?我知道这是一个模糊的区域,因为没有获得这些信息的完美方式,但也许有些东西可以帮助吗?

1 个答案:

答案 0 :(得分:1)

在兄弟节点和父节点的文本上查找文本,因为这是他们经常出现的位置。如果你真的需要解析html,LXML可能会有所帮助。