返回与系列中某些日语字符匹配的行

时间:2017-09-25 08:23:11

标签: python pandas character-encoding

我有一个带有日文几列的pandas数据框。 我想运行一个返回包含某些日语字符的行的搜索。

离。

find_str = 'バッグ'

我知道我不能只使用以下内容:

df[df.col1.str.contains(find_str)] or df[df.col1 == find_str]

我该怎么做?就像我需要使用什么编码一样?

                                           name
0                                                    ヴァラ
1             ALEXANDER WANG(アレキサンダーワン) クラッチバッグ パイソン【中古】
2                                                 ミューズトゥ
3                                                 ミューズトゥ
4                                               ローディーロック
5                                          バブーシュカクリスタルGG

我会运行一些简单的事情:

df[df.name.str.contains('ゥ')]

应返回第2行和第3行,但我得到一个空结果

1 个答案:

答案 0 :(得分:0)

对我来说工作:

#!/usr/bin/python
# -*- coding: utf-8 -*-

import pandas as pd

df = pd.read_csv('file.csv', encoding='utf-8')
find_str = u'バッグ'

m = df['name'].str.contains(find_str)
print (m)
0    False
1     True
2    False
3    False
4    False
5    False
Name: name, dtype: bool