Python3.7无法正确解析文本文件

时间:2019-03-13 16:30:10

标签: python python-3.x list parsing

我正在尝试编写(应该是...)基本的Python脚本来完成以下任务:

  1. 从硬编码路径中读取日志文件(以下示例文件)
  2. 为文件的每一行创建一个包含两个或三个元素的数组
  3. 打印出该数组。

这是scimark基准测试中的示例日志文件:

**                                                              **
** SciMark2 Numeric Benchmark, see http://math.nist.gov/scimark **
** for details. (Results can be submitted to pozo@nist.gov)     **
**                                                              **
Using       2.00 seconds min time per kenel.
Composite Score:          55.11
FFT             Mflops:   35.99    (N=1024)
SOR             Mflops:   60.25    (100 x 100)
MonteCarlo:     Mflops:    3.21
Sparse matmult  Mflops:   16.10    (N=1000, nz=5000)
LU              Mflops:   15.02    (M=100, N=100)

理想情况下,我将像这样创建一个数组:

array = [
['Composite Score', 55.11 ''],
['FFT MFlops', 35.99, '(N=1024)'],
['SOR MFlops', 60.25, '(100 x 100)'],
['MonteCarlo Mflops', 3.21, ''],
['Sparse matmult Mflops', 16.10, '(n=1000, NZ=5000)'],
['LU', 3.21, '(M=100, N=100)']]

我尝试使用以下python代码执行此操作:

import csv

with open ('/SciMarkResults.txt') as file:
    lines = file.readlines()

print(len(lines))
new_lines = lines[5:]

def get_data(readfile):
    types = (line.split('\n') for line in readfile)
    return types

a = get_data(new_lines)

print(a)

哪个提供以下输出:

11
<generator object get_data.<locals>.<genexpr> at 0x7ff45b5c5ba0>

我已经考虑过使用正则表达式,但这似乎不是首选解决方案。

我无法确定为什么无法正确拆分阵列。只需打印new_lines即可产生:

['Composite Score:          460.11\n', 'FFT             Mflops:   315.99    (N=1024)\n', 'SOR             Mflops:   860.25    (100 x 100)\n', 'MonteCarlo:     Mflops:    93.21\n', 'Sparse matmult  Mflops:   416.10    (N=1000, nz=5000)\n', 'LU              Mflops:   615.02    (M=100, N=100)\n']

任何建议将不胜感激。

1 个答案:

答案 0 :(得分:1)

代替使用

types = (line.split('\n') for line in readfile)

这是一个生成器理解,您可以使用

types = [line.split('\n') for line in readfile]

这是一个列表理解,应该为您提供所需的输出。

@jdehesa在上面也回答了同样的问题