Question

我有40,000个HTML文件。每个文件都有一个包含利润和表格的表格。特定公司的损失声明。

我想将所有这些数据写入Stata。（或者，也可以是Excel / CSV文件）。最终产品应该是一个Stata / Excel文件，其中包含所有公司的清单及其资产负债表的详细信息（收入，利润等）

我可以知道如何做到这一点吗？我试过Outwit，但看起来不够好。

Answer 1

Stata并不是这项工作的最佳工具。您必须使用低级file命令来读取输入文本文件，然后解析相关表（再次使用低级字符串处理）。将它们放入数据集是最容易的部分;你可以

    expand 2 in l
    replace company = "parsed name" in l
    replace revenue = parsed_revenue in l

等，或使用post机制。幸运的话，你会发现一些可能使它更简单的软件包，但我不知道，findit html似乎没有任何可用的东西。

Answer 2

Stata不是这项工作的好工具。原则上它是可能的。就个人而言，我已经做过类似的事情：将ascii文件读入Stata，解析它们并从中提取信息。我已使用insheet将数据转储到Stata中。然后我用Stata string functions处理了数据。这有点麻烦。这些文件的结构非常简单明了。我不想象当文件具有更复杂的结构时会发生什么。

我认为最好的策略是使用Python，Perl或Ruby等脚本语言。提取html表中包含的信息。结果可以很容易地写入csv，Excel甚至Stata（.dta）文件。

Answer 3

你应该使用Python beautifulsoup包。从HTML文件中提取数据非常方便。以下是链接。

http://www.crummy.com/software/BeautifulSoup/

在文档中，有许多命令，但只有少数命令很重要。以下是重要的命令：

main()

将数据刮到Stata

3 个答案: