我有一些文本文件,其中有一个表。下面是一个文件的示例:
File_1:
<TABLE>
<CAPTION>
Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 Item 8
<S> <C> <C> <C> <C> <C> <C> <C> <C> <C>
Name of Issuer Class CUSIP No. Market Quantity Investment Other Voting Authority
Value Discretion Managers Sole Shared None
ABBOTT LABS COM 002824100 $ 241 6,825 Sole None 6,825
ABBVIE INC COM 00287Y109 $ 278 6,825 Sole None 6,825
AERCAP HOLDINGS NV SHS N00985106 $ 1,326 85,810 Sole None 85,810
AEROPOSTALE COM 007865108 $ 925 67,987 Sole None 67,987
ALBANY MOLECULAR RESH INC COM 012423109 $ 1,199 114,083 Sole None 114,083
...等等。
File_2:
<TABLE>
<CAPTION>
FORM 13F INFORMATION TABLE
Voting Authority
Value Shares/ Sh/ Put/ Invstmt Other ------------------
Name of Issuer Title of class CUSIP (x$1000) Prn Amt Prn Call Dscretn Managers Sole Shared None
- ------------------------------ ---------------- --------- -------- ---------- --- ---- ------- --------- ----- ------- ----
<S> <C> <C> <C> <C> <C> <C> <C> <C> <C> <C> <C>
SINA CORP US ORD G81477104 300 4354 SH SOLE 4354 0 0
AUGUSTA RES CORP COM NEW 050912203 761 199841 SH SOLE 199841 0 0
BAIDU INC SPON ADR REP A 056752108 215 2227 SH SOLE 2227 0 0
BANCO BRADESCO S A SP ADR PFD NEW 059460303 948 46700 SH SOLE 46700 0 0
CPFL ENERGIA S A SPONSORED ADR 126153105 1697 22097 SH SOLE 22097 0 0
COEUR D ALENE MINES CORP IDA COM NEW 192108504 17492 640253 SH SOLE 640253 0 0
COMPANHIA ENERGETICA DE MINA SP ADR N-V PFD 204409601 1612 97171 SH SOLE 97171 0 0
...等等。
仅供参考,这些是sec.gov网站上的13F文本文件,提供了共同基金的详细信息。
我的目标是在python中读取这些文件,并分离出列(发行人名称,CUSIP等),以便在有共同基金的情况下,我可以抓取其详细信息。尽管如果细节为HTML / XML格式很容易,但是当文本格式作为每个文件中表格的格式不断变化(名称之间的空格不断变化,文件的总列数不同)时,它的文本格式还是个挑战。 ..)。
有一种简单的方法吗?