标签: python web-crawler mechanize
我正在编写一个爬虫,并且我一直在遇到表单控件,机械化可以为我提供除类型之外的任何信息。有什么方法可以让我获得与控件相关的人类可读文本吗?我知道这是一个模糊的区域,因为没有获得这些信息的完美方式,但也许有些东西可以帮助吗?
答案 0 :(得分:1)
在兄弟节点和父节点的文本上查找文本,因为这是他们经常出现的位置。如果你真的需要解析html,LXML可能会有所帮助。