Question

假设我在csv文件中有多个句子（不是段落），如句子A，B，C等。我想用N-gram（Unigrams或Bigrams）来计算每个句子中的单词矩阵。这样我就可以轻松地从我的Matrix中获得每个句子的计算N-gram向量。我该怎么做？

PS：我尝试了几种方法，但所有方法都计算句子或整段的N-gram！

Answer 1

您可以尝试使用pandas数据框并在每一行使用“apply”

import pandas as pd

x = pd.read_csv("the_santances.csv")

x.apply("the function that calculates the ngram")