我正在尝试从网页中提取一些数据。但是,如果我使用urllib.request模块,结果会很混乱,因为数据在html表中(也不是很好)。
我发现如果我在浏览器中打开页面,只需按CTRL + A,CTRL + C,CTRL + V到记事本 - 我就能得到我想要的内容。有没有办法在python中模拟它,因为我需要做大量的页面。
我也尝试过使用BeautifulSoup,但正如我所说 - 这些表格做得非常糟糕,它将归结为修改代码以提取每个表格的文本,这比实际手动复制粘贴需要更多时间
答案 0 :(得分:1)
有一些替代方案。
urllib
,但您自己或使用Beautiful Soup删除HTML标记。QWebKit
模块加载网页并提取文字。SendMessage
或PostMessage
)来模拟 CTRL + A , CTRL + C 和 CTRL + V 。希望这有帮助!