忽略以下文本段落
XML代码是万维网联盟(W3C)的正式建议,与超文本标记语言(HTML)类似。 XML和HTML都包含描述页面或文件内容的标记符号。 HTML代码仅以显示和交互方式来描述网页内容(主要是文本和图形图像)。
XML数据被称为自描述或自定义,这意味着数据的结构是与数据一起嵌入的,因此,当数据到达时,无需预先构建用于存储数据的结构。在XML中可以动态地理解它。 XML格式可由希望以一致方式共享信息的任何个人或团体或公司使用。 XML实际上是标准通用标记语言(SGML)的一种更简单易用的子集,它是创建文档结构的标准。
因此,因为我使用了下面的代码来提取所有5个字段。
import requests
from bs4 import BeautifulSoup
import lxml
soup = BeautifulSoup(contents,'lxml')
a=[v.get_text() for v in soup.select('cia')]
v=[v.get_text() for v in soup.select('civ')]
p=[v.get_text() for v in soup.select('cip')]
y=[v.get_text() for v in soup.select('ciy')]
t=[v.get_text() for v in soup.select('cit')]
print (a)
print (v)
print (p)
print (y)
print (t)
答案 0 :(得分:3)
您可以尝试这样的操作:创建一个生成器,该生成器将从存储在字典中的XML文件中产生值。 XML文件中缺少的值将在此字典中存储为“空白”:
from bs4 import BeautifulSoup
data = """<CI_INFO>
<CI_JOURNAL>
<CI_AUTHOR>CAMPBELL D</CI_AUTHOR>
<CI_VOLUME>0079</CI_VOLUME>
<CI_PAGE>00034</CI_PAGE>
<CI_YEAR>2013</CI_YEAR>
<CI_TITLE> <![CDATA[ ALASKA MAGAZINE FEB ]]></CI_TITLE>
</CI_JOURNAL>
<CI_JOURNAL>
<CI_AUTHOR>BURKE CH</CI_AUTHOR>
<CI_YEAR>1961</CI_YEAR>
<CI_TITLE> <![CDATA[ DOCTOR HAP ]]> </CI_TITLE>
</CI_JOURNAL>
<CI_JOURNAL>
<CI_YEAR>1905</CI_YEAR>
<CI_TITLE> <![CDATA[ REPORT GOVERNOR ALAS ]]></CI_TITLE>
</CI_JOURNAL>
</CI_INFO>"""
def parse_data(soup):
_text = lambda soup, name: soup.find(name).text.strip() if soup.find(name) else 'Blank'
for j in soup.select('CI_JOURNAL'):
d = {}
d['author'] = _text(j, 'CI_AUTHOR')
d['vol'] = _text(j, 'CI_VOLUME')
d['page'] = _text(j, 'CI_PAGE')
d['year'] = _text(j, 'CI_YEAR')
d['title'] = _text(j, 'CI_TITLE')
yield d
for info in parse_data(BeautifulSoup(data, 'xml')):
print(info['author'])
print(info['vol'])
print(info['page'])
print(info['year'])
print(info['title'])
print('-' * 80)
这将打印:
CAMPBELL D
0079
00034
2013
ALASKA MAGAZINE FEB
--------------------------------------------------------------------------------
BURKE CH
Blank
Blank
1961
DOCTOR HAP
--------------------------------------------------------------------------------
Blank
Blank
Blank
1905
REPORT GOVERNOR ALAS
--------------------------------------------------------------------------------
编辑:
如果要分隔列,可以执行以下操作:
author, vol, page, year, title = [], [], [], [], []
for d in parse_data(BeautifulSoup(data, 'xml')):
author.append(d['author'])
vol.append(d['vol'])
page.append(d['page'])
year.append(d['year'])
title.append(d['title'])
print(author)
print(vol)
print(page)
print(year)
print(title)
此打印:
['CAMPBELL D', 'BURKE CH', 'Blank']
['0079', 'Blank', 'Blank']
['00034', 'Blank', 'Blank']
['2013', '1961', '1905']
['ALASKA MAGAZINE FEB', 'DOCTOR HAP', 'REPORT GOVERNOR ALAS']
编辑:
要使用'\t'
进行打印,可以使用以下代码:
print('>\t' + str(author))
print('\t' + str(vol))
print('\t' + str(page))
print('\t' + str(year))
print('\t' + str(title))
这将打印:
> ['CAMPBELL D', 'BURKE CH', 'Blank']
['0079', 'Blank', 'Blank']
['00034', 'Blank', 'Blank']
['2013', '1961', '1905']
['ALASKA MAGAZINE FEB', 'DOCTOR HAP', 'REPORT GOVERNOR ALAS']