我疯狂搜索试图找到如何读取csv文件中的行。
我需要读取1000个随机行,每行有3列。第一列有一封电子邮件。我需要随机发送电子邮件,然后输入第2列和第3列。 (Python 2.7,csv文件)
示例:
Name Date Color
Ray May Gray
Alex Apr Green
Ann Jun Blue
Kev Mar Gold
Rob May Black
而不是第1栏第3行,我需要[Ann],她的整行。这是一个包含1000多个名称的CSV文件。我必须输入她的名字并输出她的整行。
我尝试了什么
from collections import namedtuple
Entry = namedtuple('Entry', 'Name, Date, Color')
file_location = "C:/Users/abriman/Desktop/Book.csv"
ss_dict = {}
spreadsheet = file_location = "C:/Users/abriman/Desktop/Book.csv"
for row in spreadsheet:
entry = Entry(*tuple(row))
ss_dict['Ann']
我的错误是
Traceback (most recent call last):
File "<stdin>", line 2, in <module>
TypeError: __new__() takes exactly 4 arguments (2 given)
我也尝试了其他方法,但收效甚微。我是python的初学者。
答案 0 :(得分:4)
你走在正确的轨道上。第一个问题:您永远不会打开位于file_location
的文件。因此,当您迭代for row in spreadsheet:
时,您将迭代spreadsheet
的字符,这些字符是file_location
的字符,它们是"C:/Users/..."
的字符。所以你要做的第一件事就是打开文件:
spreadsheet = open(file_location, 'r')
你的循环中还有另一个问题。当您在for
循环中迭代文件时,您将返回文件的行。因此,在每次迭代时,row
将是一行,例如"Ray May Gray"
。当你打电话给tuple()
时,你会得到一个看起来像('R', 'a', 'y', ' ', ' ', 'M', ...)
的元组。你需要做的是通过分割空格构建你的元组:
entry = Entry(*row.split())
然后,您需要将条目添加到字典ss_dict
:
ss_dict[entry.Name] = entry
最后,你可以读出ss_dict['Ann']
的值,但这应该在你的循环之外 - 如果你在循环中这样做,你可能会尝试在它之前读取ss_dict['Ann']
的值已设置。总而言之,您的代码应如下所示:
from collections import namedtuple
Entry = namedtuple('Entry', 'Name, Date, Color')
file_location = "C:/Users/abriman/Desktop/Book.csv"
ss_dict = {}
spreadsheet = open(file_location, 'r') # <--
for row in spreadsheet:
entry = Entry(*row.split()) # <--
ss_dict[entry.Name] = entry # <--
print ss_dict['Ann']
顺便提一下,您收到错误消息的原因是当for row in spreadsheet:
spreadsheet
为字符串时,row
只是字符,正如我所提到的,所以tuple(row)
只是一个包含一个字符的元组,因此长度为1,所以当你执行*tuple(row)
时,你只传递一个参数而不是三个。< / p>
所有这一切,您可能需要考虑查看the csv
module,它是标准库的一部分,并且精确地设计用于读取csv文件。从长远来看,它可能会让你的生活更轻松。
答案 1 :(得分:2)
我认为您需要的是enumerate
def read_csv_line(line_number, filename):
with open("filename.csv") as fileobj
for i, line in enumerate(fileobj):
if i == (line_number - 1):
return line
return None
然后您可以提供随机数和文件名以获得随机行。
答案 2 :(得分:1)
解决问题的方法可能是简单的词典理解:
>>> Entry = namedtuple('Entry', 'Name, Date, Color')
>>> [l for l in open('t.tsv', 'r')]
<<<
['Name Date Color\n',
'Ray May Gray\n',
'Alex Apr Green\n',
'Ann Jun Blue\n',
'Kev Mar Gold\n',
'Rob May Black\n']
>>> [l.split() for l in open('t.tsv', 'r')]
<<<
[['Name', 'Date', 'Color'],
['Ray', 'May', 'Gray'],
['Alex', 'Apr', 'Green'],
['Ann', 'Jun', 'Blue'],
['Kev', 'Mar', 'Gold'],
['Rob', 'May', 'Black']]
>>> [Entry(*l.split()) for l in open('t.tsv', 'r')]
<<<
[Entry(Name='Name', Date='Date', Color='Color'),
Entry(Name='Ray', Date='May', Color='Gray'),
Entry(Name='Alex', Date='Apr', Color='Green'),
Entry(Name='Ann', Date='Jun', Color='Blue'),
Entry(Name='Kev', Date='Mar', Color='Gold'),
Entry(Name='Rob', Date='May', Color='Black')] >>> {'fooo':e for e in Entry(*l.split()) for l in open('t.tsv', 'r')}
>>> {e.Name:e for e in list(Entry(*l.split()) for l in open('t.tsv', 'r'))}
<<<
{'Alex': Entry(Name='Alex', Date='Apr', Color='Green'),
'Ann': Entry(Name='Ann', Date='Jun', Color='Blue'),
'Kev': Entry(Name='Kev', Date='Mar', Color='Gold'),
'Name': Entry(Name='Name', Date='Date', Color='Color'),
'Ray': Entry(Name='Ray', Date='May', Color='Gray'),
'Rob': Entry(Name='Rob', Date='May', Color='Black')}
我认为您正在考虑将第一行读作标题名称。 Python有DictReader - https://docs.python.org/2/library/csv.html#csv.DictReader
>>> import csv
>>> for line in csv.DictReader(open('t.tsv')): print line # don't forget to make your file coma-separated.
{'Date': 'May', 'Color': 'Gray', 'Name': 'Ray'}
{'Date': 'Apr', 'Color': 'Green', 'Name': 'Alex'}
{'Date': 'Jun', 'Color': 'Blue', 'Name': 'Ann'}
{'Date': 'Mar', 'Color': 'Gold', 'Name': 'Kev'}
{'Date': 'May', 'Color': 'Black', 'Name': 'Rob'}
或字典理解:
>>> { line['Name']: line for line in csv.DictReader(open('t.tsv')) }
<<<
{'Alex': {'Color': 'Green', 'Date': 'Apr', 'Name': 'Alex'},
'Ann': {'Color': 'Blue', 'Date': 'Jun', 'Name': 'Ann'},
'Kev': {'Color': 'Gold', 'Date': 'Mar', 'Name': 'Kev'},
'Ray': {'Color': 'Gray', 'Date': 'May', 'Name': 'Ray'},
'Rob': {'Color': 'Black', 'Date': 'May', 'Name': 'Rob'}}
>>> rows_by_name = { line['Name']: line for line in csv.DictReader(open('t.tsv')) }
>>> rows_by_name['Ann']
<<< {'Color': 'Blue', 'Date': 'Jun', 'Name': 'Ann'}
如果你想随机抽样 - 我建议先将行读入列表,然后通过randbom模块进行选择。或者......让我们用条目:
来做>>> rows = list(Entry(*l.split()) for l in open('t.tsv', 'r'))
>>> import random
>>> random.sample(rows, 1)
<<< [Entry(Name='Ray', Date='May', Color='Gray')]
>>> random.sample(rows, 1)
<<< [Entry(Name='Alex', Date='Apr', Color='Green')]
>>> random.sample(rows, 1)
<<< [Entry(Name='Name', Date='Date', Color='Color')]
>>> random.sample(rows, 1)
<<< [Entry(Name='Alex', Date='Apr', Color='Green')]
>>> random.sample(rows, 1)
<<< [Entry(Name='Alex', Date='Apr', Color='Green')]
>>> random.sample(rows, 1)
<<< [Entry(Name='Alex', Date='Apr', Color='Green')]
>>> random.sample(rows, 3)
<<<
[Entry(Name='Ray', Date='May', Color='Gray'),
Entry(Name='Kev', Date='Mar', Color='Gold'),
Entry(Name='Ann', Date='Jun', Color='Blue')]
>>> random.sample(rows, 3)
<<<
[Entry(Name='Ann', Date='Jun', Color='Blue'),
Entry(Name='Rob', Date='May', Color='Black'),
Entry(Name='Name', Date='Date', Color='Color')]
>>> random.sample(rows, 3)
<<<
[Entry(Name='Rob', Date='May', Color='Black'),
Entry(Name='Ann', Date='Jun', Color='Blue'),
Entry(Name='Kev', Date='Mar', Color='Gold')]
但要注意,你可以过多地加载你的记忆。