我正在尝试将字符串转换为列表,我想在换行时将其拆分。
来自html div的字符串如下所示:
[<div class="address-lg w-brk-ln-1 ">\r\n \r\n 1010\r\n \r\n \r\n Wien, 01. Bezirk, Innere Stadt\r\n </div>]
[<div class="address-lg w-brk-ln-1 ">\r\n \r\n 1010\r\n \r\n \r\n Wien, 01. Bezirk, Innere Stadt\r\n </div>]
[<div class="address-lg w-brk-ln-1 ">\r\n \r\n Franz-Josefs-Kai 31,\r\n \r\n 1010\r\n \r\n \r\n Wien, 01. Bezirk, Innere Stadt\r\n </div>]
[<div class="address-lg w-brk-ln-1 ">\r\n \r\n 1010\r\n \r\n \r\n Wien, 01. Bezirk, Innere Stadt\r\n </div>]
...
我希望得到的结果如下:
[Wien, 01. Bezirk, Innere Stadt, 1010, ]
[Wien, 01. Bezirk, Innere Stadt, 1010, ]
[Wien, 01. Bezirk, Innere Stadt, 1010, Franz-Josefs-Kai 31]
[Wien, 01. Bezirk, Innere Stadt, 1010, ]
...
我到现在为止解决这个问题的尝试是这样的:
address = result.select('div.bottom-content div.address-lg.w-brk-ln-1')[0].get_text().strip().replace("\r\n","").split()
address2 = list(reversed(address))
但我得到的总是:
[u'Stadt', u'Innere', u'Bezirk,', u'01.', u'Wien,', u'1010']
[u'Stadt', u'Innere', u'Bezirk,', u'01.', u'Wien,', u'1010']
[u'Stadt', u'Innere', u'Bezirk,', u'01.', u'Wien,', u'1010', u'Sch\xf6nlaterngasse,']
由于它是unicode,我认为需要.encode()它,但我还需要将它拆分到正确的位置。
答案 0 :(得分:0)
看起来你是按空格分割,但你应该用逗号分隔:split(",")
。如果这样做,您可能需要修剪结果,因为它们可能包含大量尾随空格。
但由于您没有指定任何编程语言,这只是猜测。