在使用lxml解析之前进行过滤

时间:2016-05-25 20:56:03

标签: python xml parsing

我计划使用<recordtype="2">来解析大量的xml文档(30 + gb)。但是,我只需要完全解析其中的一些文档。我想要的文件有一些识别功能,例如recordtype。例如,1-10值可能来自2,但我只需要pandas。计划是首先解析所有xml文档,仅用于识别信息。然后,使用{{1}}之类的内容创建一个数据框,其中每个文件都有此标识信息。之后,过滤掉符合我限制的文件并完全解析它们。或者,if语句如果参数匹配,则继续完全解析。我猜第二个消耗更少。我应该采取更有效的方式吗?

1 个答案:

答案 0 :(得分:0)

BeautifulSoup提供了有关如何从html和xml文件中提取功能的详细文档。

我建议您使用xml来提取数据。我不知道你的文件的格式。

但是如果你需要使用lxml here是一个也使用BeautifulSoup的小文档。

让你入门。下载BeautifulSoup后

示例:

from b4 import BeautifulSoup

data = "file"
soup = BeautifulSoup(data, 'lxml')

print soup

这将以格式显示页面。从那时起,您将不得不根据格式提取数据。