SEC公司文件:<SEC-HEADER>标签是否有效SGML?如果是,该如何解析?

时间:2019-11-02 12:11:55

标签: parsing sgml edgar

我试图解析sec.gov中的SEC公司文件。从fb 10-Q index.htm开始,让我们看一个完整的文本提交文件,例如complete submission text filing。它的结构类似于:

<SEC-DOCUMENT>
<SEC-HEADER>
<ACCEPTANCE-DATETIME>"some content" This tag is not closed.

"some lines resembling yaml markup" 
These are indented lines with a 
"key": "value" structure.

</SEC-HEADER>
<DOCUMENT>
.
.
some content
.
.

</DOCUMENT>

"several DOCUMENT tags" ...


</SEC-DOCUMENT>

我试图弄清楚<SEC-HEADER>标记的结构,并在Public Dissemination Service (PDS) Technical Specification (pdf)下找到了一些信息,并得出结论认为标头的内容应为SGML。

尽管如此,我对格式一无所知,因为没有尖括号,并且键-值对之间用冒号分隔,例如key: value而不是<key>value</key>。在pdf链接中,我找不到有关冒号的任何信息。

问题:<SEC-HEADER>标签是有效的SGML吗?如果是,该如何解析?

在任何帮助下我都会很高兴。

0 个答案:

没有答案