无法将XML文档格式化为表格结构(可能是输出格式不正确)
我创建了一个SSIS程序包,该程序包使用XSLT提取了一个大型的复杂XML文档,并将某些标签简化并拆分为多个单独的文件,这些文件我希望将其引入SQL中。
SSIS解决方案的输出文件之一如下:
def parse(self, response):
loader = TheLoader(item=TestItems(), response=response)
loader.add_xpath('title1', '//*[@id="firstHeading"]/text()')
request = Request(
"https://en.wikipedia.org/wiki/2016_Rugby_Championship",
callback=self.parsePage1,
meta={'loader': loader},
dont_filter=True
)
yield request
def parsePage1(self, response):
loader = response.meta['loader']
loader.response = response
loader.add_xpath('title1', '//*[@id="firstHeading"]/text()')
return loader.load_item()
上面的标记基于输入文件是持久的-将用于在SQL中链接一次
<?xml version="1.0" encoding="utf-8"?>
<InqNum>1234</InqNum>
<ClntNum>123</ClntNum>
<ViewTyp>INTERNAL</ViewTyp>
<Date>09/01/2019</Date>
以上标签的数量会有所不同。
<ConNum>051568159</ConNum>
<ConNum>079119935</ConNum>
<ConNum>088000951</ConNum>
<ConNum>092786625</ConNum>
<ConNum>099326871</ConNum>
以上是针对个人的详细信息
<NewCon>N</NewCon>
<AgeOfFile>68 Yrs 11 Mths</AgeOfFile>
<Surnm>BLOGGS</Surnm>
<FstNm>JOE</FstNm>
<SecNm></SecNm>
<DOB>01/01/1950</DOB>
<Sex>MALE</Sex>
<Marital></Marital>
<Occupa>PROGRAMMER</Occupa>
<Employ>GOOGLE</Employ>
<Phone></Phone>
<Data_ID>168365180</Data_ID>
上面的标签是主要地址信息
<Num>3</Num>
<Strt>PARK</Strt>
<City>Auckland</City>
<DateLod>09/01/2019</DateLod>
<Data_ID>175475382</Data_ID>
上面的标记是先前/其他地址信息
添加父节点以包围各种字段非常简单,以使SQL易于处理。
在SQL中,最终目标看起来像这样:Resulting Table