我怎样才能/应该使用Python将html文档分解为多个部分? (技术和逻辑上)

时间:2011-01-03 21:03:05

标签: python html beautifulsoup

我有一个HTML文档,我正试图分成单独的小块。说,拿每个< h3>标题并转换为自己的单独文件,仅使用该块中编码的HTML(以及html,head,body,tags)。

我正在使用Python的Beautiful Soup,我是新手,但似乎很容易使用这样的简单任务(任何更好的建议,如lxml或Mini-dom?)。所以:

1)我怎么去,'解析所有< h3> s并将每个转为一个单独的doc'?从指向正确方向的指针到代码片段到在线文档(对Soup来说很少见)的任何内容都将不胜感激。

2)从逻辑上讲,找到标签是不够的 - 我需要在物理上“剪掉”并将其放在一个单独的文件中(并将其从原始文件中删除)。也许解析文本行而不是节点会更容易(尽管超级丑陋,从形成的结构中解析原始文本......?)

3)同样相关 - 假设我想从类型的所有标签中删除某个属性(比如,删除所有图像的对齐属性)。这似乎很容易,但我失败了 - 任何帮助将不胜感激! 谢谢你的帮助!

1 个答案:

答案 0 :(得分:2)

是的,您使用BeautifulSoup或lxml。两者都有方法来查找要提取的节点。然后,您还可以从节点对象重新创建HTML,从而将该HTML保存到新文件中。