Question

我正在做一些研究，我在一个大型文本文件中有+25,000个报告。每个报告除以“TEXTSTART [UNIQUE-ID]”和“TEXTEND”。

到目前为止，我已成功使用以下代码从txt文件中读取单个报告（即标识符之间的文本）：

f = open("samples_combined_incomplete.txt","r" )
report = f.read()
f.close()

rstart = "TEXTSTART"
rend = "TEXTEND"

a = ((report.split(rstart))[1].split(rend)[0])
print (a)

我的问题是这个;如何根据TEXTSTART [UNIQUE-ID]将文本文档划分为唯一可识别的子字符串？如何归还ID？

我刚开始，所以关于文档，有用功能等的任何建议都会受到很多关注。

谢谢你，像魅力一样！ ID是数字和字符FYI的组合。

f = open("samples_combined_incomplete.txt","r" )
report = f.read()
f.close()

rstart = "TEXTSTART"
rend = "TEXTEND"
a = 0

dict = re.findall('TEXTSTART\[(.*?)\](.*?)TEXTEND', report, re.DOTALL)

while a < 10:
    print (dict[a])
    a += 1

如果我想在容器中搜索特定关键字并返回密钥，我该怎么做？

Answer 1

import re
print dict(re.findall('TEXTSTART\[([^\]]+)\](.*?)TEXTEND', report, re.DOTALL))

在Python中从字符串中读取子串

1 个答案: