Question

我有一些文本文件，其中有一个表。下面是一个文件的示例：

File_1:


<TABLE>
<CAPTION>
            Item 1                Item 2        Item 3      Item 4        Item 5     Item 6    Item 7   Item 8
<S>                            <C>           <C>       <C>               <C>       <C>        <C>      <C>       <C>       <C>
        Name of Issuer             Class     CUSIP No.      Market       Quantity  Investment  Other    Voting   Authority
                                                             Value                 Discretion Managers   Sole     Shared    None
ABBOTT LABS                    COM           002824100 $             241     6,825 Sole       None                          6,825
ABBVIE INC                     COM           00287Y109 $             278     6,825 Sole       None                          6,825
AERCAP HOLDINGS NV             SHS           N00985106  $          1,326    85,810 Sole       None        85,810
AEROPOSTALE                    COM           007865108 $             925    67,987 Sole       None        67,987
ALBANY MOLECULAR RESH INC      COM           012423109  $          1,199   114,083 Sole       None       114,083

...等等。

File_2:

<TABLE>
<CAPTION>
                           FORM 13F INFORMATION TABLE

                                                                                                                   Voting Authority
                                                                  Value     Shares/   Sh/  Put/ Invstmt   Other   ------------------
Name of Issuer                      Title of class      CUSIP    (x$1000)   Prn Amt   Prn  Call Dscretn Managers  Sole  Shared  None
- ------------------------------      ----------------  ---------  --------  ---------- ---  ---- ------- --------- ----- ------- ----
<S>                                 <C>               <C>        <C>       <C>         <C> <C>  <C>     <C>       <C>   <C>     <C>
SINA CORP US                        ORD               G81477104       300        4354  SH         SOLE            4354       0    0
AUGUSTA RES CORP                    COM NEW           050912203       761      199841  SH         SOLE          199841       0    0
BAIDU INC                           SPON ADR REP A    056752108       215        2227  SH         SOLE            2227       0    0
BANCO BRADESCO S A                  SP ADR PFD NEW    059460303       948       46700  SH         SOLE           46700       0    0
CPFL ENERGIA S A                    SPONSORED ADR     126153105      1697       22097  SH         SOLE           22097       0    0
COEUR D ALENE MINES CORP IDA        COM NEW           192108504     17492      640253  SH         SOLE          640253       0    0
COMPANHIA ENERGETICA DE MINA        SP ADR N-V PFD    204409601      1612       97171  SH         SOLE           97171       0    0

...等等。

仅供参考，这些是sec.gov网站上的13F文本文件，提供了共同基金的详细信息。

我的目标是在python中读取这些文件，并分离出列（发行人名称，CUSIP等），以便在有共同基金的情况下，我可以抓取其详细信息。尽管如果细节为HTML / XML格式很容易，但是当文本格式作为每个文件中表格的格式不断变化（名称之间的空格不断变化，文件的总列数不同）时，它的文本格式还是个挑战。 ..）。

有一种简单的方法吗？

读取包含具有可变空格的表格并分隔各列的文本文件

0 个答案: