如何查找所有文本文件,无论扩展名只包含逗号和数字?

时间:2012-10-23 21:56:29

标签: java python search powershell grep

我必须搜索可能包含任何扩展名的文件。所有这些文件的特殊属性是它们长度少于五行(小于4 \ n \ r),除了换行符之外,所有字符都是数字,空格和逗号。如何根据内容编写搜索文件的代码?

我很清楚这需要很长时间才能运行。

我的项目不需要Java或Python,我只是提到它们,因为我对它们比较熟悉。 Powershell是值得推荐的。

我正在运行Windows 7系统。

4 个答案:

答案 0 :(得分:1)

以下内容应该有效:

valid_chars = set('0123456789, \r\n')
for root, dirs, files in os.walk(base):
    for fname in files:
        fpath = os.path.join(root, fname)
        with open(fpath, 'rb') as f:
            lines = []
            for i, line in enumerate(f):
                if i >= 5 or not all(c in valid_chars for c in line):
                    break
            else:
                print 'found file: ' + fpath

您可以使用正则表达式代替not all(c in valid_chars for c in line)

            ...
                if i >= 5 or not re.match(r'[\d, \r\n]*$', line):
            ...

如果你使用正则表达式,为了提高效率,请在循环之外使用re.compile

答案 1 :(得分:1)

import os

expected_chars = set(' ,1234567890\n\r')
nlines = 5
max_file_size = 1000  # ignore file longer than 1000bytes, this will speed things up


def process_dir(out, dirname, fnames):
    for fname in fnames:
    fpath = os.path.join(dirname, fname)

    if os.path.isfile(fpath):

        statinfo = os.stat(fpath)

        if statinfo.st_size < max_file_size: 
            with open(fpath) as f:
                # read the first n lines
                firstn = [ f.readline() for _ in range(nlines)]

                # if there are any more lines left this is not our file
                if f.readline():
                    continue

                # if the first n lines contain only spaces, commas, digits and new lines
                # this is our kind of file add it to the results.
                if not set(''.join(firstn)) - expected_chars:
                    out.append(fpath)


out = []
path.walk("/some/path/", process_dir, out)

答案 2 :(得分:1)

您可以使用grep -r-l选项。 -r允许您在所有文件的目录中递归搜索,-l仅打印内容与正则表达式匹配的文件的名称。

grep -r -l '\A([0-9, ]+\s){1,4}[0-9, ]+\Z' directory

这将打印少于5行数字,空格或逗号字符的所有文件的名称列表。

\ A和\ Z将检查主题文本的开头和结尾。 [0-9, ]+查找一系列数字,空格或逗号,后跟\s,它是换行符,空格或回车符。该序列最多可重复4次,由{1,4}表示,然后是另一行数据。

答案 3 :(得分:0)

在Python中(我只会概述步骤,以便您自己编程。但当然可以随意询问您是否可以解决问题):

  • 使用os.path.walk查找所有文件(它会为您提供所有文件,无论其扩展名如何)。
  • 请注意,它还会为您提供目录等,因此请使用os.path.isfile跳过它们。
  • 对于每个文件:
    • 打开它(open)。在with语句中执行以下操作,以避免必须手动关闭文件。
    • 您可以先计算行数,然后检查逗号,但这可能比较慢,所以:
    • 逐行读取文件。对于每一行,请做两件事:
    • 计算线条。如果你到达5,请继续下一个文件。
    • 检查它是否与逗号标准匹配。我会使用regular expression。如果不匹配,请继续。
    • 如果您在文件的末尾,那么您就成功了,因此您可以打印文件名或任何您想要的内容。