我必须为语料库中的每个单词构建一个带有术语权重的文档,我有几个预处理步骤要做。其中之一是删除整个语料库中出现少于5次的每个单词。 这就是我所做的,我相信它不是最有效的方法。
假设我有10个HTML文档。我从每个文档中读取,使用nltk和BeautifulSoup进行标记,将输出写入文件。我必须先为所有10个文件执行此操作。再次阅读所有10个文档,检查特定术语在ENTIRE CORPUS中出现的次数,并将输出写入不同的文件。
由于我正在读取和写入每个文件两次(必须为1000个文档执行此操作),因此执行程序需要很长时间。 如果有人能够提出一种不需要这么长时间并且效率更高的替代方法,我们将非常感激。我正在使用Python3。
谢谢
def remove_words(temp_path):
#####PREPROCESING : Remove words that occur only once in the entire corpus , i.e words with value =1
temp_dict={}
with open(temp_path) as file:
for line in file:
(key,value)=line.split()
temp_dict[key]=value
#print("Lenght before removing words appearing just once: %s"%len(temp_dict))
check_dir=temp_dict.copy()
new_dir=full_dir.copy()
for k,v in check_dir.items(): #Compare each temperary dictionary with items in full_dir. If a match exits and the key value=1, delete it
for a,b in new_dir.items():
if k==a and b==1:
del temp_dict[k]
#print("Length after removing words appearing just once: %s \n"%len(temp_dict))
return temp_dict
def calc_dnum(full_dir,temp_dict):
#Function to calculate the total number of documents each word appears in
dnum_list={}
for k,v in full_dir.items():
for a,b in temp_dict.items():
if k==a:
dnum_list[a]=v
return dnum_list
答案 0 :(得分:0)
我的猜测是你的代码大部分时间花在这个块上:
for k,v in check_dir.items():
for a,b in new_dir.items():
if k==a and b==1:
del temp_dict[k]
和这个块...
for k,v in full_dir.items():
for a,b in temp_dict.items():
if k == a:
dnum_list[a] = v
你在这里做了很多不必要的工作。只要一次就够了,你就会多次迭代new_dir
和temp_dict
。
这两个块可以简化为:
for a, b in new_dir.items():
if check_dir.get(a) == 1:
del temp_dict[a]
和
for a, b in temp_dict.items():
if a in full_dir:
dnum_list[a] = v