Python String查找字符的长度

时间:2015-05-05 06:13:48

标签: python string hadoop mapper

我正在尝试使用python来使用mapper / reduce从文本文件中读取输入,并使用AWS EMR Hadoop(mapper)输出到许多集群中。我想根据他们拥有的字符数输出单词。 基本上在下面的if语句的4行中,我想输出4种单词。

1.超长单词包含10个以上的字符。

2.长字包含7,8或9个字符。

3.Medium字包含4个,5个或6个字符。

4短字包含3个,2个或1个字符。

这段代码看起来似乎没有用,但有人可以帮我解决这个问题吗? 'lword'就是这个词,如果有帮助的话。谢谢!

   if pattern.match(lword) and (len(lword) <= 10:
        print '%s%s%d' % (lword, "\t", 1)

    if pattern.match(lword) and (len(lword) >= 7 || len(lword)<=9 :
        print '%s%s%d' % (lword, "\t", 1)

    if pattern.match(lword) and (len(lword) >= 4 || len(lword)<=6 :
        print '%s%s%d' % (lword, "\t", 1)

     if pattern.match(lword) and (len(lword) >= 1 || len(lword)<=3 :
        print '%s%s%d' % (lword, "\t", 1)

3 个答案:

答案 0 :(得分:1)

Craig Burgler已经指出您的代码使用了无效的||语法,并展示了如何避免再次测试pattern.match(lword)次。

您可以做的另一项改进是利用Python中的比较可以链接的事实,例如

x = 5
if 4 <= x <= 6:
    # True

此外,由于您将不止一次地测试len(lword),因此将其存储在变量中而不是一遍又一遍地计算它是有意义的:

word_length = len(lword)

最后,既然看起来你正在做与lword类似的事情,无论它的长度如何,你都会在完成测试后执行该操作。您的最终代码可能如下所示:

if pattern.match(lword):
    word_length = len(lword)
    if 1 <= word_length <= 3:
        category = 1
    elif 4 <= word_length <= 6:
        category = 2
    elif 7 <= word_length <= 9:
        category = 3
    elif word_length >= 10:
        category = 4
    else:
        category = 0  # lword is empty
    print '%s%s%d' % (lword, "\t", category)

答案 1 :(得分:0)

您想使用and代替'| |”在最后三个字长度测试中。例如,更可读的测试是len(lword) in [7. 8. 9]

第一个字长测试应该是>= 10而不是<= 10

因此,假设print语句是不同操作的占位符,具体取决于lword的大小:

if pattern.match(lword):
   if len(lword) >= 10:
       print '%s%s%d' % (lword, "\t", 1)
   elif len(lword) in [7, 8, 9] :
       print '%s%s%d' % (lword, "\t", 1)
   elif len(lword) in [4, 5, 6] :
       print '%s%s%d' % (lword, "\t", 1)
   else: # lword is between one and three characters long
       print '%s%s%d' % (lword, "\t", 1)

答案 2 :(得分:0)

看看这个:

if (len(lword)) >= 10:
        print '%s%s%d' % (lword, "\t", 1)

elif (len(lword) >= 7) and (len(lword) <= 9) :
        print '%s%s%d' % (lword, "\t", 1)

elif (len(lword) >= 4) and (len(lword) <= 6) :
        print '%s%s%d' % (lword, "\t", 1)

elif (len(lword) >= 1) and (len(lword) <= 3) :
        print '%s%s%d' % (lword, "\t", 1)