样本数据(place_aggregated_listings):
floor rooms expenses price_aprox_local_currency days_on_market titles descriptions
place_with_parent_names
|México|Aguascalientes|Aguascalientes| 2.706536 3.031245 561.821473 2.137250e+06 95.470769 Casa en Venta en Aguascalientes Casa en Venta ... Casa en venta en Trojes de Oriente I. 4 habita...
|México|Aguascalientes|Jesús María| 1.684537 3.030995 500.000000 1.717322e+06 107.571429 Casa en Venta en Jesús María Casa en Venta en ... Casa en venta en RESIDENCIAL LA VILLA JESUS MA...
|México|Baja California|Mexicali| 1.480033 1.891953 345.234334 2.057698e+06 97.256451 VENDO CASA FRACC. VISTAHERMOSA 3R Casa en Vent... BONITA CASA EN ESQUINAPLANTA BAJA:COCHERA 2 AU...
|México|Baja California|Mexicali|Mexicali|Residencial Barcelona| 1.000000 3.000000 300.000000 5.446771e+05 102.666667 Casa en Venta en Mexicali CASA DE UNA PLANTA T... Casa en venta en Residencial Barcelona. 3 habi...
|México|Baja California|Tijuana| 2.023858 2.632041 551.287875 1.835643e+06 99.550610 Casa en Venta en Tijuana Casa en Venta en Tiju... Casa en venta en Hipodromo. 3 habitaciones, 2 ...
我在这里读取csv的NLP数据:
place_aggregated_listings[['titles', 'descriptions']].to_csv(r'./place_aggregated_listings.txt', header=None, index=None, sep=' ', mode='a' )
,然后加载为语料库对象:
corpus = nltk.corpus.reader.plaintext.PlaintextCorpusReader(root='./', fileids='place_aggregated_listings.txt')
将其拆分为测试和训练句子变得不可行(我的GCP机器尺寸较大且语料库很大)。我有一个实用程序函数,该函数需要一个语料库对象来执行此操作,并且我想用UNK令牌替换所有具有一定计数(例如n = 10000)以下的单词,以加快此过程。如何建立这样的语料库或修改当前的语料库以用于这种用途?