将数据刮到Stata

时间:2012-05-14 05:43:25

标签: excel scrape stata

我有40,000个HTML文件。每个文件都有一个包含利润和表格的表格。特定公司的损失声明。

我想将所有这些数据写入Stata。 (或者,也可以是Excel / CSV文件)。最终产品应该是一个Stata / Excel文件,其中包含所有公司的清单及其资产负债表的详细信息(收入,利润等)

我可以知道如何做到这一点吗?我试过Outwit,但看起来不够好。

3 个答案:

答案 0 :(得分:1)

Stata并不是这项工作的最佳工具。您必须使用低级file命令来读取输入文本文件,然后解析相关表(再次使用低级字符串处理)。将它们放入数据集是最容易的部分;你可以

    expand 2 in l
    replace company = "parsed name" in l
    replace revenue = parsed_revenue in l

等,或使用post机制。幸运的话,你会发现一些可能使它更简单的软件包,但我不知道,findit html似乎没有任何可用的东西。

答案 1 :(得分:0)

Stata不是这项工作的好工具。原则上它是可能的。就个人而言,我已经做过类似的事情:将ascii文件读入Stata,解析它们并从中提取信息。我已使用insheet将数据转储到Stata中。然后我用Stata string functions处理了数据。这有点麻烦。这些文件的结构非常简单明了。我不想象当文件具有更复杂的结构时会发生什么。

我认为最好的策略是使用Python,Perl或Ruby等脚本语言。提取html表中包含的信息。结果可以很容易地写入csv,Excel甚至Stata(.dta)文件。

答案 2 :(得分:0)

你应该使用Python beautifulsoup包。从HTML文件中提取数据非常方便。以下是链接。

http://www.crummy.com/software/BeautifulSoup/

在文档中,有许多命令,但只有少数命令很重要。以下是重要的命令:

main()