我不知道如何使用Python,因为我以前从未学过它。因此,如果可能,我需要社区的一些帮助。
我一直试图编写一个循环遍历所述列中每个单元格的程序,并对其进行标记以使其存储在数组中。
到目前为止,数组还没有工作,当我使用for循环来检查注册的单词是否在stop-words中时,它只会附加代码为{{1}的最后一个句子}
使用以下代码
first_list.append(i)
它给出了错误消息
import xlrd
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
book = xlrd.open_workbook("C:/Users/L31101/Documents/Data/Copy_1.xlsx")
sheet = book.sheet_by_index(8)
stop_words = set(stopwords.words("english"))
randomnumber = 0
k = 0
first_list = []
num_cols = sheet.ncols # Number of columns
for row_idx in range(0, sheet.nrows): # Iterate through rows
print('-'*200)
print('Row: %s' % row_idx) # Print row number
for col_idx in range(6, 7): # Iterate through columns
cell_obj = sheet.cell(row_idx, col_idx) # Get cell object by row, col
first_tokenization = sent_tokenize(cell_obj.value)
second_tokenization = word_tokenize(cell_obj.value)
for i in second_tokenization:
if i is not stop_words:
first_list[k] = i
k += 1
print(first_list)
更不用说,检查stop_words for-loop是不行的。
请帮帮我。
谢谢,
安德里奇