在Python中对表情符号分组大型文本数据

时间:2016-04-07 20:28:12

标签: python grouping

我有300MB意见数据存储在一个文件中。

在这些意见中,有751种不同的表情符号字符串。如何对表情符号分组这些意见?例如 ' Smiley_emoji'列表应包括所有具有笑脸表情符号的意见。

我的想法是什么;

for opinion in opinionsArray:
    if smiley_emoji in opinion:
       smiley_emoji_arr.append(opinion)
    elif sad_emoji in opinion:
       sad_emoji_arr.append(opinion)
    elif other_emoji in opinion:
       other_emoji_arr.append(opinion)
    ....

然后打印所有表情符号及其各自的意见。

我可以被认为是一个Python新手。 因为我无法创建751 if / else语句和751个不同的列表。 是否有更方便的方法将这些数据与表情符号分组?

提前致谢

编辑: 表情符号是一种字符串表示,如; smiley_emoji,sad_emoji等。数据存储在一个txt文件中,每个意见都在一致,如; line1包括带有表情符号的opinion1,line2包含带有表情符号等的opinion2。 我正在寻找一种有效而聪明的方法来做到这一点。感谢。

1 个答案:

答案 0 :(得分:1)

这样的事情:

<html>
<style>
    p {
        border-top: 1px solid #ccc;
        border-bottom: 1px solid #ccc;
    }
</style>
<p><span>Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book.</span></p>

但是,您可能会从可能的字符串文件中构建opinions = ['hello :)', 'world ;)'] emoji = { ':)': [], # smile ';)': [] # wink } for i in opinions: for k, v in emoji.items(): if k in i: v.append(i) break # assuming opinions don't have multiple emoji 字典。

顺便说一句,根据您的具体需求量身定制的问题并非最佳做法。尝试分解你的问题并思考它是如何概括的。即,询问编程问题,而不是有关特定任务的问题。