橙色Python:文本预处理

时间:2019-03-17 19:59:41

标签: text preprocessor orange

在我的论文中,我使用橙色V3.2进行一些文本预处理。 我有一个语料库,并且已经对文本进行了预处理。 基本上我的输出是:

文件6: WCO_CODE(语料库):2208308200 COMMODITY_DESC(语料库):ID G292111135威士忌酒4000ML酒精浓度43 令牌和标签:身份证威士忌酒

现在我要做的是处理我拥有的所有文档,对所有相同的WCO_CODES行1行,并合并标记。

例如 在文件6(请参见上文)和文件X中,我有

WCO_CODE:2208308200 COMMODITY_DESC:ID G292111135葡萄酒500ML 代币和标签:WINE

作为输出,我想在一个字符串中组合对应于一个HS代码的不同令牌/标签

WCO_CODE = 2208308200,并将“ id威士忌酒”作为字符串

甚至不确定这是否可行,我看到有写一些python的选项 脚本,但随后我需要调查如何执行此操作。

如果有人有任何想法?

谢谢

0 个答案:

没有答案