将字符串从html转换为列表

时间:2017-06-16 08:43:19

标签: html css string list split

我正在尝试将字符串转换为列表,我想在换行时将其拆分。

来自html div的字符串如下所示:

[<div class="address-lg w-brk-ln-1 ">\r\n                \r\n                1010\r\n    \r\n    \r\n        Wien, 01. Bezirk, Innere Stadt\r\n            </div>]
[<div class="address-lg w-brk-ln-1 ">\r\n                \r\n                1010\r\n    \r\n    \r\n        Wien, 01. Bezirk, Innere Stadt\r\n            </div>]
[<div class="address-lg w-brk-ln-1 ">\r\n                \r\n                    Franz-Josefs-Kai 31,\r\n                \r\n                1010\r\n    \r\n    \r\n        Wien, 01. Bezirk, Innere Stadt\r\n            </div>]
[<div class="address-lg w-brk-ln-1 ">\r\n                \r\n                1010\r\n    \r\n    \r\n        Wien, 01. Bezirk, Innere Stadt\r\n            </div>]
...

我希望得到的结果如下:

[Wien, 01. Bezirk, Innere Stadt, 1010, ]
[Wien, 01. Bezirk, Innere Stadt, 1010, ]
[Wien, 01. Bezirk, Innere Stadt, 1010, Franz-Josefs-Kai 31]
[Wien, 01. Bezirk, Innere Stadt, 1010, ]
...

我到现在为止解决这个问题的尝试是这样的:

address = result.select('div.bottom-content div.address-lg.w-brk-ln-1')[0].get_text().strip().replace("\r\n","").split()
address2 = list(reversed(address))

但我得到的总是:

[u'Stadt', u'Innere', u'Bezirk,', u'01.', u'Wien,', u'1010']
[u'Stadt', u'Innere', u'Bezirk,', u'01.', u'Wien,', u'1010']
[u'Stadt', u'Innere', u'Bezirk,', u'01.', u'Wien,', u'1010', u'Sch\xf6nlaterngasse,']

由于它是unicode,我认为需要.encode()它,但我还需要将它拆分到正确的位置。

1 个答案:

答案 0 :(得分:0)

看起来你是按空格分割,但你应该用逗号分隔:split(",")。如果这样做,您可能需要修剪结果,因为它们可能包含大量尾随空格。

但由于您没有指定任何编程语言,这只是猜测。