EDGAR .txt文件的HTML渲染

时间:2015-11-29 03:59:08

标签: php html xml edgar

目前,我正在开发一个项目,其中一个PHP脚本从ftp://ftp.sec.gov获取索引文件,并将所有公司信息放入数据库。然后,第二个PHP脚本从SEC获取原始文本文件并将其保存在本地以进行处理。

可以在此处找到原始文本文件的示例 -

ftp://ftp.sec.gov/edgar/data/2488/0000002488-15-000028.txt

最终结果的例子可以在这里找到 - http://www.sec.gov/Archives/edgar/data/1084869/000143774915020024/flws20150927_10q.htm

目标是能够像许多公司一样以格式化的方式提交申请,但问题是我似乎无法弄清楚它是如何为每个申请可靠地完成的。有些文件似乎有XML,其他文件似乎有HTML

我如何能够可靠地生成原始文本文件的格式化版本?

我当前的代码 -

def main(): Future[List[User]] = getUsers flatMap processUsers    
def getUsers: Future[List[User]]
def processUsers(users: List[User]): Future[List[User]]

>

1 个答案:

答案 0 :(得分:1)

您不需要使用原始文本文件。您可以使用sec-apihttps://www.npmjs.com/package/sec-api)。该软件包使用websockets提供了一个通往sec.gov EDGAR的实时通道-它与客户端(React,React Native,Angular,Vue等)和服务器端(Node.js等)JavaScript一起使用。

在EDGAR上发布新文件(10K,10Q,13D等)后,程序包将触发一个事件,并以JSON返回以下数据:

{
  "companyName":"MORGAN STANLEY (0000895421) (Filer)",
  "type":"424B2",
  "description":"FORM 424B2",
  "linkToFilingDetails":"https://www.sec.gov/...014988-index.htm",
  "linkToHtmlAnnouncement":"https://www.sec.gov/...268.htm",
  "announcedAt":"2018-12-26T16:02:32-05:00"
}

linkToFilingDetails指向HTML文件,其中列出了文件的所有附件。 linkToHtmlAnnouncement指向文件本身的HTML文件。

也可以将PHP与支持websockets的插件(例如Ratchet)结合使用。

示例: enter image description here