我通过使用python读取了每行包含推文的文件。现在,我需要从中创建一个字符词汇表,并使用它来编码每个句子。但是,我需要提取表情符号描述而不将它们分为字符。为了使我的目的更加明确,请考虑以下推文:
x='Wish she could have told me herself. @NicoleScherzy #nicolescherzinger #OneLove #myfav #MyQueen :heavy_black_heart:\xef\xb8\x8f:heavy_black_heart:\xef\xb8\x8f'
首先,我应该说,我不知道为什么有两个\xef\xb8\x8f
。当我查看文件时,没有这样的东西。
假设我有一个字典,为每个字符和表情符号描述(:heavy_black_heart:)
存储一个唯一的整数:
dict = {'W => 1' , 'i=>2','s=>3','h=>4',':heavy_black_heart =>5',':smiling_face=>6','z=>7', .... etc}
现在,我想要做的是将此X字符串转换为Y数组,该数组存储字符串中每个字符和表情符号描述的相应整数。
Y= [1,2,3,4,......,5,5]
我读了这个文件,把它放到了数组中,但是我找不到怎么做最后一部分。这是我到目前为止所做的:
def parse_dataset(fp):
y = []
corpus = []
with open(fp, 'rt') as data_in:
for line in data_in:
if not line.startswith("Tweet index"): # discard first line if it contains metadata
line = line.rstrip() # remove trailing whitespace
label = int(line.split("\t")[1])
tweet = line.split("\t")[2]
y.append(label)
corpus.append(tweet)
return corpus, y
if __name__ == "__main__":
DATASET_FP = "input_file.txt"
corpus, y = parse_dataset(DATASET_FP)
有没有人可以帮助我?