计算字典中的单词(Python)

时间:2013-05-29 01:10:54

标签: python dictionary counting

我有这个代码,我想打开一个指定的文件,然后每次有一个while循环它会计算它,最后输出特定文件中的while循环总数。我决定将输入文件转换为字典,然后创建一个for循环,每当单词后面跟着一个空格时,它会在最后打印WHILE_之前向WHILE_添加+1计数。

然而,这似乎不起作用,我不知道为什么。任何帮助解决这个问题都将非常感激。

这是我目前的代码:

WHILE_ = 0
INPUT_ = input("Enter file or directory: ")


OPEN_ = open(INPUT_)
READLINES_ = OPEN_.readlines()
STRING_ = (str(READLINES_))
STRIP_ = STRING_.strip()
input_str1 = STRIP_.lower()


dic = dict()
for w in input_str1.split():
    if w in dic.keys():
        dic[w] = dic[w]+1
    else:
        dic[w] = 1
DICT_ = (dic)


for LINE_ in DICT_:
    if  ("while\\n',") in LINE_:
        WHILE_ += 1
    elif ('while\\n",') in LINE_:
        WHILE_ += 1
    elif ('while ') in LINE_:
        WHILE_ += 1

print ("while_loops {0:>12}".format((WHILE_)))

这是我正在使用的输入文件:

'''A trivial test of metrics
Author: Angus McGurkinshaw
Date: May 7 2013
'''

def silly_function(blah):
    '''A silly docstring for a silly function'''
    def nested():
        pass
    print('Hello world', blah + 36 * 14)
    tot = 0  # This isn't a for statement
    for i in range(10):
        tot = tot + i
        if_im_done = false  # Nor is this an if
    print(tot)

blah = 3
while blah > 0:
    silly_function(blah)
    blah -= 1
    while True:
        if blah < 1000:
            break

输出应为2,但此刻我的代码打印0

1 个答案:

答案 0 :(得分:6)

这是一个非常奇怪的设计。您正在调用readlines来获取字符串列表,然后在该列表上调用str,这会将整个内容加入到一个大字符串中,每行加上引用repr用逗号和方括号括起来,然后将结果拆分为空格。我不知道为什么你会做这样的事情。

你奇怪的变量名,额外无用的代码行(如DICT_ = (dic)等)只会使事情进一步混淆。

但我可以解释为什么它不起作用。在您完成所有愚蠢之后尝试打印DICT_,您会发现包含while的唯一键是while'while。由于这些都不符合您要查找的任何模式,因此您的计数最终为0。

值得注意的是,即使模式有多个实例,您也只需向WHILE_添加1,因此您的整个计数单都无用。


如果您不混淆字符串,尝试恢复它们,然后尝试匹配错误恢复的版本,这将更容易。直接做吧。

虽然我正在使用它,但我还要修复其他一些问题,以便您的代码可读,更简单,并且不会泄漏文件,等等。以下是您试图手动破解的逻辑的完整实现:​​

import collections

filename = input("Enter file: ")
counts = collections.Counter()
with open(filename) as f:
    for line in f:
        counts.update(line.strip().lower().split())
print('while_loops {0:>12}'.format(counts['while']))

在样本输入上运行此操作时,您正确获得2。将其扩展为处理iffor是微不足道的。


但是,请注意,您的逻辑中存在严重问题:任何看起来像关键字但位于注释或字符串中间的内容仍然会被拾取。如果不编写某种代码来删除注释和字符串,就无法解决这个问题。这意味着你要将iffor过度计数1.明显的剥离方式 - line.partition('#')[0]和类似的引号 - 不会起作用。首先,在if关键字之前设置字符串是完全有效的,如"foo" if x else "bar"中所示。其次,你不能用这种方式处理多行字符串。

这些问题以及其他类似的问题是您几乎肯定想要一个真正的解析器的原因。如果您只是尝试解析Python代码,那么标准库中的the ast module就是明显的方法。如果你想为各种不同的语言编写快速和简单的解析器,试试pyparsing,这非常好,并附带一些很好的例子。

这是一个简单的例子:

import ast

filename = input("Enter file: ")
with open(filename) as f:
    tree = ast.parse(f.read())
while_loops = sum(1 for node in ast.walk(tree) if isinstance(node, ast.While))
print('while_loops {0:>12}'.format(while_loops))

或者,更灵活:

import ast
import collections

filename = input("Enter file: ")
with open(filename) as f:
    tree = ast.parse(f.read())
counts = collections.Counter(type(node).__name__ for node in ast.walk(tree))    
print('while_loops {0:>12}'.format(counts['While']))
print('for_loops {0:>14}'.format(counts['For']))
print('if_statements {0:>10}'.format(counts['If']))