读取包含具有可变空格的表格并分隔各列的文本文件

时间:2018-11-04 16:04:31

标签: python-3.x text-mining

我有一些文本文件,其中有一个表。下面是一个文件的示例:

File_1:


<TABLE>
<CAPTION>
            Item 1                Item 2        Item 3      Item 4        Item 5     Item 6    Item 7   Item 8
<S>                            <C>           <C>       <C>               <C>       <C>        <C>      <C>       <C>       <C>
        Name of Issuer             Class     CUSIP No.      Market       Quantity  Investment  Other    Voting   Authority
                                                             Value                 Discretion Managers   Sole     Shared    None
ABBOTT LABS                    COM           002824100 $             241     6,825 Sole       None                          6,825
ABBVIE INC                     COM           00287Y109 $             278     6,825 Sole       None                          6,825
AERCAP HOLDINGS NV             SHS           N00985106  $          1,326    85,810 Sole       None        85,810
AEROPOSTALE                    COM           007865108 $             925    67,987 Sole       None        67,987
ALBANY MOLECULAR RESH INC      COM           012423109  $          1,199   114,083 Sole       None       114,083

...等等。

File_2:

<TABLE>
<CAPTION>
                           FORM 13F INFORMATION TABLE

                                                                                                                   Voting Authority
                                                                  Value     Shares/   Sh/  Put/ Invstmt   Other   ------------------
Name of Issuer                      Title of class      CUSIP    (x$1000)   Prn Amt   Prn  Call Dscretn Managers  Sole  Shared  None
- ------------------------------      ----------------  ---------  --------  ---------- ---  ---- ------- --------- ----- ------- ----
<S>                                 <C>               <C>        <C>       <C>         <C> <C>  <C>     <C>       <C>   <C>     <C>
SINA CORP US                        ORD               G81477104       300        4354  SH         SOLE            4354       0    0
AUGUSTA RES CORP                    COM NEW           050912203       761      199841  SH         SOLE          199841       0    0
BAIDU INC                           SPON ADR REP A    056752108       215        2227  SH         SOLE            2227       0    0
BANCO BRADESCO S A                  SP ADR PFD NEW    059460303       948       46700  SH         SOLE           46700       0    0
CPFL ENERGIA S A                    SPONSORED ADR     126153105      1697       22097  SH         SOLE           22097       0    0
COEUR D ALENE MINES CORP IDA        COM NEW           192108504     17492      640253  SH         SOLE          640253       0    0
COMPANHIA ENERGETICA DE MINA        SP ADR N-V PFD    204409601      1612       97171  SH         SOLE           97171       0    0

...等等。

仅供参考,这些是sec.gov网站上的13F文本文件,提供了共同基金的详细信息。

我的目标是在python中读取这些文件,并分离出列(发行人名称,CUSIP等),以便在有共同基金的情况下,我可以抓取其详细信息。尽管如果细节为HTML / XML格式很容易,但是当文本格式作为每个文件中表格的格式不断变化(名称之间的空格不断变化,文件的总列数不同)时,它的文本格式还是个挑战。 ..)。

有一种简单的方法吗?

0 个答案:

没有答案