获取一个PDF文件并将其中的每个单词带入一个字典设置,它等于默认值0

时间:2016-01-30 19:14:56

标签: python pdf dictionary text

好的,我正在尝试做的是获取PDF文件的URL,只需在程序中打开PDF文件并从中取出每个单词。然后将其放在一个字典中,将其默认值设置为零。我的问题是,当我尝试从URL获取PDF时,它或者直接访问互联网上的PDF文件,或者它只是从它而不是每个单词的每一行。我已经尝试过使用.txt文件,它最终也会完成每一行,而不是每个单词。

以下是我尝试过的一些代码:

run = open('Harry.txt')

def words(file):

    docline = {}
    docwords = {}
    for line in file:
        docline[line] = 0
    for word in docline:
        docwords[word] = 0

    return docwords

print(dict(words(run)))   

1 个答案:

答案 0 :(得分:0)

这应该有效:

run = open('Harry.txt')

def words(file):

    docwords = {}
    for line in file:
        for word in line.split():
            docwords[word] = 0

    return docwords

print(dict(words(run)))