我有40,000个HTML文件。每个文件都有一个包含利润和表格的表格。特定公司的损失声明。
我想将所有这些数据写入Stata。 (或者,也可以是Excel / CSV文件)。最终产品应该是一个Stata / Excel文件,其中包含所有公司的清单及其资产负债表的详细信息(收入,利润等)
我可以知道如何做到这一点吗?我试过Outwit,但看起来不够好。
答案 0 :(得分:1)
Stata并不是这项工作的最佳工具。您必须使用低级file
命令来读取输入文本文件,然后解析相关表(再次使用低级字符串处理)。将它们放入数据集是最容易的部分;你可以
expand 2 in l
replace company = "parsed name" in l
replace revenue = parsed_revenue in l
等,或使用post
机制。幸运的话,你会发现一些可能使它更简单的软件包,但我不知道,findit html
似乎没有任何可用的东西。
答案 1 :(得分:0)
Stata不是这项工作的好工具。原则上它是可能的。就个人而言,我已经做过类似的事情:将ascii文件读入Stata,解析它们并从中提取信息。我已使用insheet将数据转储到Stata中。然后我用Stata string functions处理了数据。这有点麻烦。这些文件的结构非常简单明了。我不想象当文件具有更复杂的结构时会发生什么。
我认为最好的策略是使用Python,Perl或Ruby等脚本语言。提取html表中包含的信息。结果可以很容易地写入csv,Excel甚至Stata(.dta)文件。
答案 2 :(得分:0)
你应该使用Python beautifulsoup包。从HTML文件中提取数据非常方便。以下是链接。
http://www.crummy.com/software/BeautifulSoup/
在文档中,有许多命令,但只有少数命令很重要。以下是重要的命令:
main()