在我的论文中,我使用橙色V3.2进行一些文本预处理。 我有一个语料库,并且已经对文本进行了预处理。 基本上我的输出是:
文件6: WCO_CODE(语料库):2208308200 COMMODITY_DESC(语料库):ID G292111135威士忌酒4000ML酒精浓度43 令牌和标签:身份证威士忌酒
现在我要做的是处理我拥有的所有文档,对所有相同的WCO_CODES行1行,并合并标记。
例如 在文件6(请参见上文)和文件X中,我有
WCO_CODE:2208308200 COMMODITY_DESC:ID G292111135葡萄酒500ML 代币和标签:WINE
作为输出,我想在一个字符串中组合对应于一个HS代码的不同令牌/标签
WCO_CODE = 2208308200,并将“ id威士忌酒”作为字符串
甚至不确定这是否可行,我看到有写一些python的选项 脚本,但随后我需要调查如何执行此操作。
如果有人有任何想法?
谢谢