Question

样本数据（place_aggregated_listings）：

    floor   rooms   expenses    price_aprox_local_currency  days_on_market  titles  descriptions
place_with_parent_names                             
|México|Aguascalientes|Aguascalientes|  2.706536    3.031245    561.821473  2.137250e+06    95.470769   Casa en Venta en Aguascalientes Casa en Venta ...   Casa en venta en Trojes de Oriente I. 4 habita...
|México|Aguascalientes|Jesús María|     1.684537    3.030995    500.000000  1.717322e+06    107.571429  Casa en Venta en Jesús María Casa en Venta en ...   Casa en venta en RESIDENCIAL LA VILLA JESUS MA...
|México|Baja California|Mexicali|   1.480033    1.891953    345.234334  2.057698e+06    97.256451   VENDO CASA FRACC. VISTAHERMOSA 3R Casa en Vent...   BONITA CASA EN ESQUINAPLANTA BAJA:COCHERA 2 AU...
|México|Baja California|Mexicali|Mexicali|Residencial Barcelona|    1.000000    3.000000    300.000000  5.446771e+05    102.666667  Casa en Venta en Mexicali CASA DE UNA PLANTA T...   Casa en venta en Residencial Barcelona. 3 habi...
|México|Baja California|Tijuana|    2.023858    2.632041    551.287875  1.835643e+06    99.550610   Casa en Venta en Tijuana Casa en Venta en Tiju...   Casa en venta en Hipodromo. 3 habitaciones, 2 ...

我在这里读取csv的NLP数据：

place_aggregated_listings[['titles', 'descriptions']].to_csv(r'./place_aggregated_listings.txt', header=None, index=None, sep=' ', mode='a' )

，然后加载为语料库对象：

corpus = nltk.corpus.reader.plaintext.PlaintextCorpusReader(root='./', fileids='place_aggregated_listings.txt')

将其拆分为测试和训练句子变得不可行（我的GCP机器尺寸较大且语料库很大）。我有一个实用程序函数，该函数需要一个语料库对象来执行此操作，并且我想用UNK令牌替换所有具有一定计数（例如n = 10000）以下的单词，以加快此过程。如何建立这样的语料库或修改当前的语料库以用于这种用途？

如何为未知令牌建立带有截止的语料库

0 个答案: