我正试图从页面主标题和目录之间的维基百科中删除所有段落。我注意到它们总是位于两个div元素之间,如下所示:
<div id="some-div">...</div>
<p>...</p>
<p>...</p>
<p>...</p>
<div id="some-other-div">...</div>
我想抓住两个div元素之间的所有HTML(不仅仅是文本) 在Python中寻找解决方案。
答案 0 :(得分:1)
我怀疑你可以依赖完全一致的格式化。但是,这似乎适用于Python(编程语言)&#39;页面,介绍文本由“内容”分隔。框。
我提供了几点说明:
这种检查垃圾的方法几乎肯定是必要的。