应用错误收集

我是编程的新手（虽然我愿意学习），所以请提前为我的基本问题道歉。

[SEC通过FTP提供所有文件] [1]，最终，我想批量下载这些文件的子集。但是，在创建这样的脚本之前，我需要为这些文件的位置生成一个列表，其格式如下：

/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm

51143 =公司ID，我已经通过FTP访问了我需要的公司ID列表
000005114313000007 / 0000051143-13-000007 =报告ID，又名＆＃34;入藏号＆＃34;

我正在努力解决这个问题，因为文档很轻松。如果我已经拥有000005114313000007/0000051143-13-000007（美国证券交易委员会称之为＆＃34;加入号码＆＃34;），那么它非常简单。但我正在寻找~45k条目，显然需要为给定的CIK ID（我已经拥有）自动生成这些条目。

是否有自动化的方法来实现这一目标？

欢迎来到SO。

我目前正在抓取同一个网站，所以我将解释到目前为止我所做的事情。我所假设的是，您将拥有您正在寻找的公司的CIK号码。如果您搜索公司的CIK，您将获得可用于该公司的所有文件的列表。我们以Apple为例（因为他们有TON文件）：

Link to Apple's Filings

您可以在此处设置搜索过滤器。您链接的文档是10-Q，所以让我们使用它。如果您过滤10-Q，您将拥有所有10-Q文档的列表。您会注意到URL略有变化，以适应过滤器。

您可以使用Python及其网络抓取库获取该网址，并抓取该网页上表格中所有文档的网址。对于这些链接中的每一个，您都可以从页面中删除所需的任何链接或信息。我个人使用BeautifulSoup4，但是如果选择Python作为编程语言，lxml是网页抓取的另一种选择。我建议使用Python，因为它很容易学习基础知识和一些中间编程结构。

过去，项目是你的。祝你好运，我已经在下面发布了一些链接，以帮助你入门。我只允许发布两个链接，因为我是网站新手，所以我会给你一个美丽的汤链接：

Beautiful Soup Home Page

如果您选择使用Python并且不熟悉该语言，请查看codecademy python课程，并且不要忘记查看lxml，因为有些人更喜欢它而不是BeautifulSoup（有些人也同时使用它们）所以这都是个人偏好的问题。

生成EDGAR FTP文件路径列表

1 个答案: