我有一个HTML文档,我正试图分成单独的小块。说,拿每个< h3>标题并转换为自己的单独文件,仅使用该块中编码的HTML(以及html,head,body,tags)。
我正在使用Python的Beautiful Soup,我是新手,但似乎很容易使用这样的简单任务(任何更好的建议,如lxml或Mini-dom?)。所以:
1)我怎么去,'解析所有< h3> s并将每个转为一个单独的doc'?从指向正确方向的指针到代码片段到在线文档(对Soup来说很少见)的任何内容都将不胜感激。
2)从逻辑上讲,找到标签是不够的 - 我需要在物理上“剪掉”并将其放在一个单独的文件中(并将其从原始文件中删除)。也许解析文本行而不是节点会更容易(尽管超级丑陋,从形成的结构中解析原始文本......?)
3)同样相关 - 假设我想从类型的所有标签中删除某个属性(比如,删除所有图像的对齐属性)。这似乎很容易,但我失败了 - 任何帮助将不胜感激! 谢谢你的帮助!
答案 0 :(得分:2)
是的,您使用BeautifulSoup或lxml。两者都有方法来查找要提取的节点。然后,您还可以从节点对象重新创建HTML,从而将该HTML保存到新文件中。