我是编程的新手(虽然我愿意学习),所以请提前为我的基本问题道歉。
[SEC通过FTP提供所有文件] [1],最终,我想批量下载这些文件的子集。但是,在创建这样的脚本之前,我需要为这些文件的位置生成一个列表,其格式如下:
/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm
我正在努力解决这个问题,因为文档很轻松。如果我已经拥有000005114313000007/0000051143-13-000007
(美国证券交易委员会称之为"加入号码"),那么它非常简单。但我正在寻找~45k条目,显然需要为给定的CIK ID
(我已经拥有)自动生成这些条目。
是否有自动化的方法来实现这一目标?
答案 0 :(得分:0)
欢迎来到SO。
我目前正在抓取同一个网站,所以我将解释到目前为止我所做的事情。我所假设的是,您将拥有您正在寻找的公司的CIK号码。如果您搜索公司的CIK,您将获得可用于该公司的所有文件的列表。我们以Apple为例(因为他们有TON文件):
您可以在此处设置搜索过滤器。您链接的文档是10-Q,所以让我们使用它。如果您过滤10-Q,您将拥有所有10-Q文档的列表。您会注意到URL略有变化,以适应过滤器。
您可以使用Python及其网络抓取库获取该网址,并抓取该网页上表格中所有文档的网址。对于这些链接中的每一个,您都可以从页面中删除所需的任何链接或信息。我个人使用BeautifulSoup4,但是如果选择Python作为编程语言,lxml是网页抓取的另一种选择。我建议使用Python,因为它很容易学习基础知识和一些中间编程结构。
过去,项目是你的。祝你好运,我已经在下面发布了一些链接,以帮助你入门。我只允许发布两个链接,因为我是网站新手,所以我会给你一个美丽的汤链接:
如果您选择使用Python并且不熟悉该语言,请查看codecademy python课程,并且不要忘记查看lxml,因为有些人更喜欢它而不是BeautifulSoup(有些人也同时使用它们)所以这都是个人偏好的问题。