这段JSON解码器的代码是做什么的?

时间:2013-09-01 01:48:45

标签: python json

我一直在使用这段代码:

def read_text_files(filename):
    # Creates JSON Decoder
    decoder = json.JSONDecoder()
    with open(filename, 'r') as inputfile:
        # Returns next item in input file, removes whitespace from it and saves it in line
        line = next(inputfile).strip()
        while line:
            try:
                # Returns 2-tuple of Python representation of data and index where data ended
                obj, index = decoder.raw_decode(line)
                # Remove object
                yield obj
                # Remove already scanned part of line from rest of file
                line = line[index:]
            except ValueError:
                line += next(inputfile).strip()                    
            if not line:
                line += next(inputfile).strip()
            global count
            count+=1
            print str(count)

all_files = glob.glob('Documents/*')
for filename in all_files:
    for data in read_text_files(filename):      
        rawTweet = data['text']
        print 'Here'

它读入JSON文件并对其进行解码。但是,我意识到当我将count和print语句放在ValueError中时,我在这里丢失了几乎一半的文档 - 它们永远不会回到main方法。

有人可以向我解释一下try语句正在做什么以及为什么我丢失了除了部分的文档。这是由于糟糕的JSON吗?

修改:包含更多代码

目前,在发布代码后,机器会打印:

"Here"
2
3 etc...
199
Here
200 
Here (alternating like this until)...
803
804
805 etc...
1200

这是否因为某些JSON损坏而发生?是因为有些文件是重复的(有些文件肯定是)?

编辑2:

有趣,删除:

line=next(inputfile).strip()
while line

并将其替换为:

for line in inputfile:

似乎解决了这个问题。有这个原因吗?

1 个答案:

答案 0 :(得分:0)

try语句指定了一个语句块,通过以下except块处理异常(在您的情况下只有一个)。

我的印象是,通过修改,您将在异常处理程序本身内进行第二次异常触发。这使得控制转到更高级别的异常处理程序,甚至在函数read_text_files之外。如果异常处理程序中没有异常,则循环可以继续。

请检查count是否存在且已使用整数值初始化(例如0)。