在Python中拆分文本

时间:2013-04-22 18:59:17

标签: python python-2.7

我正在编写一些从网站捕获数据并将其保存到数据库中的脚本。一些数据被合并,我需要拆分它们。我有......这样的

Endokrynologia (bez st.),Położnictwo i ginekologia (II st.)

所以我需要得到:

Endokrynologia (bez st.)
Położnictwo i ginekologia (II st.)

所以我在python中编写了一些代码:

 #!/usr/bin/env python
# -*- encoding: utf-8

import MySQLdb as mdb
from lxml import html, etree
import urllib
import sys
import re

Nr = 17268
Link = "http://rpwdl.csioz.gov.pl/rpz/druk/wyswietlKsiegaServletPub?idKsiega="

sock = urllib.urlopen(Link+str(Nr))  
htmlSource = sock.read()                             
sock.close()
root = etree.HTML(htmlSource)
result = etree.tostring(root, pretty_print=True, method="html")
Spec = etree.XPath("string(//html/body/div/table[2]/tr[18]/td[2]/text())")
Specjalizacja = Spec(root)
if re.search(r'(,)\b', Specjalizacja):
    text = Specjalizacja.split()
    print text[0]
    print text[1]

我得到:

Endokrynologia
(bez

我做错了什么?

1 个答案:

答案 0 :(得分:1)

你会尝试替换

text = Specjalizacja.split()

text = Specjalizacja.split(',')

不知道这是否能解决您的问题。