Question

我有一个csv文件，可以用pandas处理。该列名为raw_value我希望检索此列中的唯一字符。

x=df.manual_raw_value.unique()

允许检索唯一的行。但是，我想在这个列中检索整个字符。这是： alphabet = 6,3 5 1 8 V O T R E A 2。 éè/：

   raw_value
    6,35
    11,68
    VOTRE
    AVEL AR VRO
    2292
    questions.
    nb
    les
    937,99
    à
    et
    TTC
    1
    620
    Echéance
    vos
    ROB21
    Pièce
    AGRIAL
    désignation
    des
    taux
    13s
    2
    par
    le
    mois,
    32
    21/07/2016
    FR
    au
    0
    téléphonique
    BROYEUR
    et
    ST
    TVA
    de
    des
    ECHEANCIER
    à
    ne
    lieu
    481,67
    N°0016
    de
    ministère
    de
    20/11/2015
    Si
    vous
    59
    cas
    EUR
    3.19
    2
    contrôle
    assurances
    BAS
    et
    4423873
    renseignements
    6104219
    C9DECOMPTEDIVERS
    6635
    DE
    10825

EDIT_1

这三种解决方案完美无缺。我选择了第二个

set(df.raw_value.apply(list).sum())

Hwever它返回一些编码的char。它与编码有关吗？如何解码和显示真正的char。这是打印的内容

{' ',
 '!',
 '"',
 '%',
 '&',
 "'",
 '(',
 ')',
 '*',
 '+',
 ',',
 '-',
 '.',
 '/',
 '0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 ':',
 '=',
 '>',
 '?',
 '@',
 '_',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 '\x82',
 '\x87',
 '\x94',
 '\xa1',
 '\xa7',
 '\xaa',
 '\xab',
 '\xac',
 '\xae',
 '\xaf',
 '\xb0',
 '\xb4',
 '\xb9',
 '\xbb',
 '\xc2',
 '\xc3',
 '\xe2'}

Answer 1

您可以先将原始值转换为字符串列表，然后堆叠到char df并获取唯一元素。

df.applymap(list).raw_value.apply(pd.Series).stack().unique()
Out[620]: array(['6', ',', '3', ..., 'ô', 'D', 'M'], dtype=object)

您也可以通过将原始值转换为列表，连接列表然后获取列表集来完成此操作。

set(df.raw_value.apply(list).sum())

一种更简单的方法是直接将原始值连接到字符串，然后对其应用set，因为string本质上是一个列表。

set(df.raw_value.sum())

注意，第一种方法将在结果中包括nan，而第二种和第三种方法不包括nan。

Answer 2

我知道这个问题已经回答了，但是这是另一种回答方法：

x = set(list(' '.join(manual_raw_value.values)))

获取给定列

2 个答案: