人, 我正在尝试开发一个python解决方案,以从美国农业部(USDA)获得有关农业商品的一些信息。
每个月,美国农业部都会发布一份报告,估计玉米,大豆和小麦等商品。
我的目标是准备一个程序进入网站,获取正确的号码并返回如下信息:
- 美国农业部估计大豆美国产量为4,48亿吨,高于上次报告中的4,20亿吨
但是要启动它,我需要弄清楚哪种文件是获得此信息的最佳类型。哪个更容易处理所有这些信息?你怎么看?
USDA在PDF,xls,XML和TXT中发布相同的数据库。 (您可以在此处查看文件:http://usda.mannlib.cornell.edu/MannUsda/viewDocumentInfo.do?documentID=1194)
我正在考虑从xls获取它,这是一种我处理得更好的文件。但从数据库来看,我发现从数据库到数据库存在一些差异。 txt和XML文件似乎更准确......但我从未使用它...不知道这是不是一个好主意。
顺便说一句:如果你有一些关于库来处理文件和数据的建议我也接受了。 = d
谢谢!
答案 0 :(得分:0)
我会使用机器可读性最强的XML格式,并且支持最多。在过去,我使用名为lxml
和BeautifulSoup
的XML解析库来提取我需要的数据。这两个都有很多文档。