如何使用python

时间:2017-09-14 11:04:08

标签: python twitter encoding

我通过使用python读取了每行包含推文的文件。现在,我需要从中创建一个字符词汇表,并使用它来编码每个句子。但是,我需要提取表情符号描述而不将它们分为字符。为了使我的目的更加明确,请考虑以下推文:

x='Wish she could have told me herself. @NicoleScherzy #nicolescherzinger #OneLove #myfav #MyQueen :heavy_black_heart:\xef\xb8\x8f:heavy_black_heart:\xef\xb8\x8f'

首先,我应该说,我不知道为什么有两个\xef\xb8\x8f。当我查看文件时,没有这样的东西。

假设我有一个字典,为每个字符和表情符号描述(:heavy_black_heart:)存储一个唯一的整数:

dict = {'W => 1' , 'i=>2','s=>3','h=>4',':heavy_black_heart =>5',':smiling_face=>6','z=>7', .... etc}

现在,我想要做的是将此X字符串转换为Y数组,该数组存储字符串中每个字符和表情符号描述的相应整数。

Y= [1,2,3,4,......,5,5]

我读了这个文件,把它放到了数组中,但是我找不到怎么做最后一部分。这是我到目前为止所做的:

def parse_dataset(fp):
    y = []
    corpus = []
    with open(fp, 'rt') as data_in:
        for line in data_in:
            if not line.startswith("Tweet index"): # discard first line if it contains metadata
                line = line.rstrip() # remove trailing whitespace
                label = int(line.split("\t")[1])
                tweet = line.split("\t")[2]
                y.append(label)
                corpus.append(tweet)
    return corpus, y

if __name__ == "__main__":
     DATASET_FP = "input_file.txt"
    corpus, y = parse_dataset(DATASET_FP)

有没有人可以帮助我?

0 个答案:

没有答案