如何结合两个语料库

时间:2019-01-10 14:14:54

标签: python nlp

我有语料库语料库_1 ,两个大小均为1 * 3000,第一个语料库被描述为“标题” corpus(corpus_1)描述为标题的“文本” 。 我怎么只能在大熊猫中做最后的语料。 例如:“ corpus_final = corpus + corpus_1”

2 个答案:

答案 0 :(得分:0)

这是使用applyjoin的解决方案:

df["final"] = df.apply(lambda x: "".join(
    [
        str(x.corpus),
        str(x.corpus_1)
    ]
), axis=1)

答案 1 :(得分:0)

您描述的

语料库变量称为字符串。在开发过程中汇总字符串的过程称为串联。要在python中连接两个字符串,只需执行以下操作:

finalstring = string1 + string2

在熊猫中,您可以使用:

data = data["your column"].str.cat(new column, sep =" ")