我正在尝试使用python来使用mapper / reduce从文本文件中读取输入,并使用AWS EMR Hadoop(mapper)输出到许多集群中。我想根据他们拥有的字符数输出单词。 基本上在下面的if语句的4行中,我想输出4种单词。
1.超长单词包含10个以上的字符。
2.长字包含7,8或9个字符。
3.Medium字包含4个,5个或6个字符。
4短字包含3个,2个或1个字符。
这段代码看起来似乎没有用,但有人可以帮我解决这个问题吗? 'lword'就是这个词,如果有帮助的话。谢谢!
if pattern.match(lword) and (len(lword) <= 10:
print '%s%s%d' % (lword, "\t", 1)
if pattern.match(lword) and (len(lword) >= 7 || len(lword)<=9 :
print '%s%s%d' % (lword, "\t", 1)
if pattern.match(lword) and (len(lword) >= 4 || len(lword)<=6 :
print '%s%s%d' % (lword, "\t", 1)
if pattern.match(lword) and (len(lword) >= 1 || len(lword)<=3 :
print '%s%s%d' % (lword, "\t", 1)
答案 0 :(得分:1)
Craig Burgler已经指出您的代码使用了无效的||
语法,并展示了如何避免再次测试pattern.match(lword)
次。
您可以做的另一项改进是利用Python中的比较可以链接的事实,例如
x = 5
if 4 <= x <= 6:
# True
此外,由于您将不止一次地测试len(lword)
,因此将其存储在变量中而不是一遍又一遍地计算它是有意义的:
word_length = len(lword)
最后,既然看起来你正在做与lword
类似的事情,无论它的长度如何,你都会在完成测试后执行该操作。您的最终代码可能如下所示:
if pattern.match(lword):
word_length = len(lword)
if 1 <= word_length <= 3:
category = 1
elif 4 <= word_length <= 6:
category = 2
elif 7 <= word_length <= 9:
category = 3
elif word_length >= 10:
category = 4
else:
category = 0 # lword is empty
print '%s%s%d' % (lword, "\t", category)
答案 1 :(得分:0)
您想使用and
代替'| |”在最后三个字长度测试中。例如,更可读的测试是len(lword) in [7. 8. 9]
第一个字长测试应该是>= 10
而不是<= 10
。
因此,假设print
语句是不同操作的占位符,具体取决于lword
的大小:
if pattern.match(lword):
if len(lword) >= 10:
print '%s%s%d' % (lword, "\t", 1)
elif len(lword) in [7, 8, 9] :
print '%s%s%d' % (lword, "\t", 1)
elif len(lword) in [4, 5, 6] :
print '%s%s%d' % (lword, "\t", 1)
else: # lword is between one and three characters long
print '%s%s%d' % (lword, "\t", 1)
答案 2 :(得分:0)
看看这个:
if (len(lword)) >= 10:
print '%s%s%d' % (lword, "\t", 1)
elif (len(lword) >= 7) and (len(lword) <= 9) :
print '%s%s%d' % (lword, "\t", 1)
elif (len(lword) >= 4) and (len(lword) <= 6) :
print '%s%s%d' % (lword, "\t", 1)
elif (len(lword) >= 1) and (len(lword) <= 3) :
print '%s%s%d' % (lword, "\t", 1)