如何使用美丽的汤从json中提取的文本中替换所有空格和新行?

时间:2017-11-12 04:59:56

标签: python beautifulsoup

div具有特定课程的容器中,我有一些不同身份证明dddldt的文字,其中包含空格和行以及某些特殊字符\, ?等。如何摆脱它?

container = soup.find_all(name="div", attrs={"class":"4_square"})

容器的大小是1.有什么建议吗?

1 个答案:

答案 0 :(得分:1)

您可以尝试查找所有dddt,然后将所有特殊字符和空格替换为默认值。我在下面提到了你可能会尝试的代码。

subject = container[0]
for i in range (0,len(subject.dl.findAll('dd'))):
    temp = subject.dl.find_all('dt')[i].text.strip('\n').replace('\n','').replace(' ','').replace('\?','')
    temp1 = subject.dl.find_all('dd')[i].text.strip('\n').replace('\n','').replace(' ','').replace('\?','')

temp和temp1会给你文字。我希望这适合你。