数据格式提示 - USDA - Agri Commodities

时间:2017-12-13 18:54:54

标签: python xml text web-scraping xls

人, 我正在尝试开发一个python解决方案,以从美国农业部(USDA)获得有关农业商品的一些信息。

每个月,美国农业部都会发布一份报告,估计玉米,大豆和小麦等商品。

我的目标是准备一个程序进入网站,获取正确的号码并返回如下信息:

- 美国农业部估计大豆美国产量为4,48亿吨,高于上次报告中的4,20亿吨

但是要启动它,我需要弄清楚哪种文件是获得此信息的最佳类型。哪个更容易处理所有这些信息?你怎么看?

USDA在PDF,xls,XML和TXT中发布相同的数据库。 (您可以在此处查看文件:http://usda.mannlib.cornell.edu/MannUsda/viewDocumentInfo.do?documentID=1194

我正在考虑从xls获取它,这是一种我处理得更好的文件。但从数据库来看,我发现从数据库到数据库存在一些差异。 txt和XML文件似乎更准确......但我从未使用它...不知道这是不是一个好主意。

顺便说一句:如果你有一些关于库来处理文件和数据的建议我也接受了。 = d

谢谢!

1 个答案:

答案 0 :(得分:0)

我会使用机器可读性最强的XML格式,并且支持最多。在过去,我使用名为lxmlBeautifulSoup的XML解析库来提取我需要的数据。这两个都有很多文档。