使用熊猫和正则表达式清除txt数据

时间:2020-10-21 17:23:18

标签: python regex pandas oracle dataframe

我是超级初学者,但是我试图做一个python scrypt,它将从通常从oracle软件下载的txt文件中提取我感兴趣的数据。 通常,当我将其复制粘贴到excel中就可以了,但是当我尝试用熊猫打开它时,数据就一团糟。

我需要做的是获取每个单元的编号,其成本和折旧准备金(标有黄色)。 enter image description here

我尝试使用此代码作为开始,但似乎由于某种原因python以错误的方式读取数据,因此创建了很多列。

import pandas as pd
import re

regex = 'I?N?\d{6,7}-'

df = pd.read_table('process data.txt', delim_whitespace=True, encoding='latin-1')
df['merged'] = df['COMPAN'] + df['COMPANCOMPANNY,']
series = df['merged']

df1 = series.str.contains(regex)

df['check'] = df1
df

输出确实很糟糕:

enter image description here

那么您是否有任何提示甚至可以真正开始?我在想,也许有一种方法可以从TXT加载表格,然后根据已建立的宽度将其分为几列?我也在寻找该解决方案,但找不到任何解决方案。

这是一个SkyDrive链接EXAMPLE FILE,并将相同的示例粘贴为文本:https://pastebin.pl/view/d3b2b4f8

谢谢!

1 个答案:

答案 0 :(得分:2)

这可能不完全是您要寻找的东西,但也许有帮助。

在加载到DataFrame之前,我将对数据进行预处理。使用链接中的示例文件,我执行了以下操作:

import re
re_row = re.compile(r'^.*?\s+'
                    r'(?P<id>\d+).*\s+[\d,.]+\s+'
                    r'(?P<cost>[\d,.]+)\s+[\d,.]+\s+[\d,.]+\s+'
                    r'(?P<depr_res>[\d,.]+)\s+[\d,.]+$',
                    re.VERBOSE)

data = []
with open('process data.txt', 'r') as fin:
    for line in fin:
        if re_row.match(line):
            id, cost, depr_res = re_row.match(line).groups()
            data.append([int(id),
                         float(cost.replace(',', '')),
                         float(depr_res.replace(',', ''))])

df = pd.DataFrame(data, columns=['id', 'cost', 'depr_res'])

生成的帧看起来像

         id      cost  depr_res
0    123123  11448.08  11448.08
1    123124  23950.12  23950.12
2    123125  23950.12  23950.12
3    123126  11448.08  11448.08
4   1353000  17001.08  14830.16
5   1353001  17001.08  14830.16
6   1353002  17001.08  11688.19
7   1353003  17001.08  14566.06
8   1353004  17001.08   9194.67
9   1353005  17001.08  14830.16
10  1353006  17001.08  14830.16
...

这绝不是一个完善的解决方案(!),但可能是一个工作的起点。