使用Python从HTML中删除内容的快捷方法是什么?

时间:2014-01-23 01:11:02

标签: python html-parsing beautifulsoup

我有十二个我需要处理的长而复杂的html文件,我没有创作。其中一些文件正常显示。其他人不是。我一直在尝试使用Python和BeautifulSoup来探索这些文件。在这里和其他地方搜索我找不到任何关于如何剥离和丢弃内容并保留文档树的示例。

编辑: 另一个有用的操作不需要删除文本,而是生成文件中的标签列表 - 白名单 - 我可以用它来测试其他未正确显示的文件。再一次,查看lxml的Cleaner中的方法似乎只是想要删除标签而不是为了保持结构。

编辑: 正如你可以从这个简短的清单中看到的只有>关于逆向操作的0个问题,使用Python 从HTML获取内容,每个人都推荐BeautifulSoup,lxml和其他类似的模块。他们都是 noobie 的问题。我已经阅读了Beautiful Soup文档,树提取不是它的方法之一。我认为有更多使用BS经验的人可能会告诉我,但是,如果我浪费时间使用这些模块之前可以使用其中一种方法,或者另一个模块可能更容易实现我的目标。

+1 A: Making a basic web scrapper in Python with only built in libraries - Python newbie

+4 A: What is a light python library that can eliminate HTML tags?...

+1 How to get only text of a webpage with Python, just as Select-all & Copy in browser?

+2 Q: Extracting Text from Parsed HTML with Python

+2 A: Easy way to get data between tags of xml or html files in python?

1 个答案:

答案 0 :(得分:0)

也许你可以试试pyquery:https://pypi.python.org/pypi/pyquery

您可以像使用jQuery一样轻松操作dom树