我试图解析sec.gov
中的SEC公司文件。从fb 10-Q index.htm开始,让我们看一个完整的文本提交文件,例如complete submission text filing。它的结构类似于:
<SEC-DOCUMENT>
<SEC-HEADER>
<ACCEPTANCE-DATETIME>"some content" This tag is not closed.
"some lines resembling yaml markup"
These are indented lines with a
"key": "value" structure.
</SEC-HEADER>
<DOCUMENT>
.
.
some content
.
.
</DOCUMENT>
"several DOCUMENT tags" ...
</SEC-DOCUMENT>
我试图弄清楚<SEC-HEADER>
标记的结构,并在Public Dissemination
Service (PDS) Technical
Specification (pdf)下找到了一些信息,并得出结论认为标头的内容应为SGML。
尽管如此,我对格式一无所知,因为没有尖括号,并且键-值对之间用冒号分隔,例如key: value
而不是<key>value</key>
。在pdf链接中,我找不到有关冒号的任何信息。
问题:<SEC-HEADER>
标签是有效的SGML吗?如果是,该如何解析?
在任何帮助下我都会很高兴。