如何为未知令牌建立带有截止的语料库

时间:2018-12-07 22:50:26

标签: python nltk corpus

样本数据(place_aggregated_listings):

    floor   rooms   expenses    price_aprox_local_currency  days_on_market  titles  descriptions
place_with_parent_names                             
|México|Aguascalientes|Aguascalientes|  2.706536    3.031245    561.821473  2.137250e+06    95.470769   Casa en Venta en Aguascalientes Casa en Venta ...   Casa en venta en Trojes de Oriente I. 4 habita...
|México|Aguascalientes|Jesús María|     1.684537    3.030995    500.000000  1.717322e+06    107.571429  Casa en Venta en Jesús María Casa en Venta en ...   Casa en venta en RESIDENCIAL LA VILLA JESUS MA...
|México|Baja California|Mexicali|   1.480033    1.891953    345.234334  2.057698e+06    97.256451   VENDO CASA FRACC. VISTAHERMOSA 3R Casa en Vent...   BONITA CASA EN ESQUINAPLANTA BAJA:COCHERA 2 AU...
|México|Baja California|Mexicali|Mexicali|Residencial Barcelona|    1.000000    3.000000    300.000000  5.446771e+05    102.666667  Casa en Venta en Mexicali CASA DE UNA PLANTA T...   Casa en venta en Residencial Barcelona. 3 habi...
|México|Baja California|Tijuana|    2.023858    2.632041    551.287875  1.835643e+06    99.550610   Casa en Venta en Tijuana Casa en Venta en Tiju...   Casa en venta en Hipodromo. 3 habitaciones, 2 ...

我在这里读取csv的NLP数据:

place_aggregated_listings[['titles', 'descriptions']].to_csv(r'./place_aggregated_listings.txt', header=None, index=None, sep=' ', mode='a' )

,然后加载为语料库对象:

corpus = nltk.corpus.reader.plaintext.PlaintextCorpusReader(root='./', fileids='place_aggregated_listings.txt')

将其拆分为测试和训练句子变得不可行(我的GCP机器尺寸较大且语料库很大)。我有一个实用程序函数,该函数需要一个语料库对象来执行此操作,并且我想用UNK令牌替换所有具有一定计数(例如n = 10000)以下的单词,以加快此过程。如何建立这样的语料库或修改当前的语料库以用于这种用途?

0 个答案:

没有答案