我很抱歉这个问题有些模糊,我对Python很新......
我需要解析制表符分隔的文本文件。这是一个非常大的文件,我试图识别和提取特定的东西。例如,如果一行是:
[苹果香蕉樱桃日期] 我想搜索并识别术语“apple”,然后提取术语“date”。
然后,我需要访问提取的术语列表并使用它们(用于与其他列表等进行比较)
我已经阅读过有关正则表达式的内容,但虽然这似乎对搜索有好处,但我不知道如何使用它来提取搜索关键字以外的术语。此外,我不知道如何访问/解析后操作结果数组..
任何帮助/方向/指针/建议/示例都会令人惊叹。
非常感谢你!
答案 0 :(得分:3)
如果文件以制表符分隔,则通常是使用csv模块的标志:
>>> import csv
>>> with open('eggs.csv', 'rb') as csvfile:
... reader = csv.reader(csvfile, dialect=csv.excel_tab)
... for row in reader:
... print row
没有任何具体的例子,很难说更多。
答案 1 :(得分:1)
http://docs.python.org/2/library/re.html
这是一个简单的例子:
import re
# This regular expression detects base-64 encoded images
regex = '(?P<src>data:image/png;base64, (?<image>[^"]*))'
# you can then either
# a)
matches = re.findall(regex, your_input_string)
for m in matches:
# address your matches with index notation
src = m[0]
data = m[1]
# b)
src = re.search(regex, your_input_string).group('src')
data = re.search(regex, your_input_string).group('data')