使用常见字符串的文本文件交叉引用CSV文件的最简单方法

时间:2013-04-22 05:20:44

标签: regex string excel csv cross-reference

我有一个CSV文件中的字符串列表,以及我想要搜索这些字符串的另一个文本文件。 CSV文件只包含我感兴趣的字符串,但文本文件中有许多其他文本散布在感兴趣的字符串中(我感兴趣的字符串是蛋白质数据库的ID号)。最简单的方法是什么?我想检查文本文件中是否存在CSV文件中的每个字符串。我在顶尖大学的研究实验室工作,所以你将帮助前沿研究!

谢谢:)

1 个答案:

答案 0 :(得分:1)

我会用Python来做这件事。要打印匹配的行,您可以这样做:

import csv
with open("strings.csv") as csvfile: 
    reader = csv.reader(csvfile)
    searchstrings = {row[0] for row in reader}   # Construct a set of keywords
with open("text.txt") as txtfile:
    for number, line in enumerate(txtfile):
        for needle in searchstrings:
            if needle in line: 
                print("Line {0}: {1}".format(number, line.strip()))
                break   # only necessary if there are several matches per line