我正在尝试从大型非结构化文本文件(每个文件1,000,000至15,000,000行)中提取数据元素,而没有一致的定界符。数据元素的顺序是一致的。
Sample data:
NAME FIRSTNAME LASTNAME DATE-OF-BIRTH 01/01/2019 ID-NUMBER 123
ADDRESS-1 1234 FAKE STREET COUNTY-CODE 123
ADDRESS-2
CITY NOWHERE STATE OH ZIP 12345
RANDOM DATA .... 700+ LINES
NAME FIRSTNAME2 LASTNAME2 DATE-OF-BIRTH 01/01/2019 ID-NUMBER 4567
ADDRESS-1 123456 OTHER STREET COUNTY-CODE 45678
ADDRESS-2
CITY SOMEWHERE STATE MI ZIP 65432
RANDOM DATA .... 700+ LINES
我正在寻找一种使用以下几个字段的值创建CSV输出的方法:
NAME, COUNTY-CODE, ZIP
FIRSTNAME LASTNAME, 123, 12345
FIRSTNAME2 LASTNAME2, 45678, 65432
数据不是制表符分隔的,并且间距会有所不同。任何帮助将不胜感激!
答案 0 :(得分:0)
问题与发现的in other SO question非常相似。
解决方案是构造部分语法,该语法分析已识别构造的结构,同时跳过无法识别的内容。
在您的情况下,使用textX可能会导致以下问题(我尚未测试过,但您了解了图片):
from textx import metamodel_from_str
mm = metamodel_from_str(r'''
File: ( /(?s:.*?(?=NAME))/ persons*=Person | 'NAME' )*
/(?s).*/;
Person:
'NAME' first_name=Name last_name=Name birth_date=Date
'ADDRESS-1' address_1=UntilEOL
'ADDRESS-2' address_2=UntilEOL
'CITY' city=UntilEOL
;
Name: /\w+/;
Date: /\d{4}-\d{2}-\d{2}/;
UntilEOL[noskipws]: /.*?\n/;
''')
data_model = mm.model_from_file('some_input_file.txt')
# Here data_model is an object with attribute `persons`
# where each person have attributes `first_name`, `last_name`, ...
# from the `Person` rule above.
注意:此解决方案假定结构部分的开头必须具有关键字NAME
,但是可以在规则Person
的无效解析中在随机数据中找到该关键字解析器将使用单词NAME
并继续。
根据您的实际数据,您必须稍微调整语法(例如特定的正则表达式)。
答案 1 :(得分:0)
嗯...
我假设您有一束线,每行包含成对的ID VALUE
,并且每个 chunk 都以ID NAME
开头。
因此,我将使用re
模块来搜索预期的模式,即NAME的出现开始了一个新元素。由于真实的名字和姓氏可以使用多个单词(约翰·菲茨杰拉德·肯尼迪),因此我认为NAME是介于NAME和DATE-OF-BIRTH之间的所有内容。
恕我直言,一种简单的方法是在解析行时构建字典,并在到达NAME时以及文件末尾使用DictWriter编写字典。如果发现一个以上的关键字,我只会保留每个关键字的第一个出现的位置,但您也可以提出一个例外。
代码可能是
import re
import csv
# prepare the patterns to search for
name = re.compile(r"NAME\s+(.*)\s+DATE")
zip_code = re.compile(r"ZIP\s*([0-9]+)")
county_code = re.compile(r"COUNTY-CODE\s*([0-9]+)")
with open("input.txt") as fdin, open("output.csv", newline='') as fdout:
wr = csv.DictWriter(fdout, fieldnames=['NAME', 'COUNTY-CODE', 'ZIP'])
elt = {}
wr.writeheader()
for line in fdin:
# process NAME
mx = name.search(line)
if mx:
if elt: # write previous dict if any
wr.writerow(elt)
elt = {'NAME': mx.group(1).strip()} # initialize a new dict
# process other keywords
if not 'COUNTY-CODE' in elt: # only keep first one
mx = county_code.search(line)
if mx:
elt['COUNTY-CODE'] = mx.group(1).strip() # update the dict with it
if not 'ZIP' in elt:
mx = zip_code.search(line)
if mx:
elt['ZIP'] = mx.group(1)
wr.writerow(elt) # don't forget last dict