我对第二个'textModule'
div感兴趣。有三个部分:
In der Rolle Aufsichtsrat waren oder sind gemeldet:
(...)
In der Rolle Geschäftsführer waren oder sind gemeldet:
(...)
In der Rolle Gesellschafter waren oder sind gemeldet:
(...)
我知道如何提取姓名和其他信息,但我想知道每个成员所属的部分。例如:
Köhlmeier Harald - Aufsichtsrat
Mazzel Josef - Aufsichtsrat
(...)
Konstatzky Adolf F. - Geschäftsführer
我的问题是这个div
结构非常扁平,每个部分的标题只有<h3>
。所以我不知道如何弄清楚一个部分的完成位置和另一个部分的开始。我无法向你展示我迄今为止所尝试的内容,因为我不知道如何处理它...任何提示?
答案 0 :(得分:1)
如果我正确地理解了您的问题,您只是想找到一种方法来分割这三个部分,这样您就可以独立处理每个部分并提取数据,并了解它所属的部分。
在这种情况下,您可以利用确切的字符串<h3
分隔各个部分的事实。您可以简单地提取第二个div,将其保存为名为eg的字符串。 second_div
并执行second_div.split("<h3")
以获取列表对象,其中第1项,第2项和第3项(不是0)在单独的部分中包含html代码。