使用Gensim在Pandas中创建一个列的Bigrams短语并将其附加到相同的数据帧

时间:2018-01-01 17:30:04

标签: pandas nlp word2vec gensim word-embedding

我正在尝试使用地址数据构建预测模型。我已经使用 Gensim Phrases 将地址数据转换为bigram模型,但是在将地址数据转换为相应的bigrams并作为单独的列附加时我遇到了问题,可以进一步用于计数器化。

我的代码

Gensim Bigram短语模型

fn

数据框列的示例输入

from gensim.models import Phrases
adj_addr=data['Clean_addr'].values.tolist()
sentence_stream = [doc.split(" ") for doc in adj_addr]
bigram = Phrases(sentence_stream, min_count=100, threshold=2)

预期输出(通过gensim短语模型后的新数据)

SUITE 7001 70/F INTERNATIONAL FINANCE CENTRE TWO  8 FINANCE ST CENTRAL HONG HONG KONG
QUALCOMM INTERNATIONAL INC. 9 QUEENS RD CENTRAL 27TH FLOOR HONG KONG
SAMUEL CHEN COMPANY LIMITED 25 CHIU LUNG ST CHIU LUNG BUILDING 4TH FLOOR CENTRAL HONG KONG

我无法用gensim中相应的双字母替换相应的地址  迭代地说明模型。 我的预期输出是用新生成的bigram短语替换所有旧地址。这样我就可以将它传递给计数器

感谢任何帮助。

0 个答案:

没有答案