目前,我正在开发一个项目,其中一个PHP脚本从ftp://ftp.sec.gov获取索引文件,并将所有公司信息放入数据库。然后,第二个PHP脚本从SEC获取原始文本文件并将其保存在本地以进行处理。
可以在此处找到原始文本文件的示例 -
ftp://ftp.sec.gov/edgar/data/2488/0000002488-15-000028.txt
最终结果的例子可以在这里找到 - http://www.sec.gov/Archives/edgar/data/1084869/000143774915020024/flws20150927_10q.htm
目标是能够像许多公司一样以格式化的方式提交申请,但问题是我似乎无法弄清楚它是如何为每个申请可靠地完成的。有些文件似乎有XML,其他文件似乎有HTML
我如何能够可靠地生成原始文本文件的格式化版本?
我当前的代码 -
def main(): Future[List[User]] = getUsers flatMap processUsers
def getUsers: Future[List[User]]
def processUsers(users: List[User]): Future[List[User]]
>
答案 0 :(得分:1)
您不需要使用原始文本文件。您可以使用sec-api
(https://www.npmjs.com/package/sec-api)。该软件包使用websockets提供了一个通往sec.gov EDGAR的实时通道-它与客户端(React,React Native,Angular,Vue等)和服务器端(Node.js等)JavaScript一起使用。
在EDGAR上发布新文件(10K,10Q,13D等)后,程序包将触发一个事件,并以JSON返回以下数据:
{
"companyName":"MORGAN STANLEY (0000895421) (Filer)",
"type":"424B2",
"description":"FORM 424B2",
"linkToFilingDetails":"https://www.sec.gov/...014988-index.htm",
"linkToHtmlAnnouncement":"https://www.sec.gov/...268.htm",
"announcedAt":"2018-12-26T16:02:32-05:00"
}
linkToFilingDetails
指向HTML文件,其中列出了文件的所有附件。
linkToHtmlAnnouncement
指向文件本身的HTML文件。
也可以将PHP与支持websockets的插件(例如Ratchet)结合使用。