我现在要做的就是提取客户名称'来自公司的披露文本。
到目前为止我所做的事情如下:
所以,我得到的标记为1及以下的句子就是这些句子的例子。
*第1号句子> 截至2008年12月31日止的财政年度,一汽解放汽车 有限公司东风车桥有限公司石岩汽车厂和一汽 青岛汽车工厂约占6.5%,6.0%和 占销售总收入的5.3%。
*句子2号。 ;;;;;主要客户2004财年,公司 得出约38%(14,706,748美元)的综合收入 来自与The Home直接交易的持续经营 Depot,Inc。
*句子No.3> ;;;;;德尔福公司是橡胶集团的最大客户。
我想提取" 一汽解放汽车有限公司东风车桥有限公司石岩汽车厂和一汽青岛汽车厂"从第1句开始,' T 他Home Depot '来自句子2,以及来自句子3的' Delphi' 。(但不是像句子3中的橡胶组这样的词,因为它不是顾客的名字)
基本上,我认为这类似于 NER问题(命名实体识别) 。所以我标记了那些句子中的每个单词。
例如,
句子1> [(' For',' IN',' O'),('',' DT',& #39; O'),('财政',' JJ', ' O'),('年',' NN',' O'),('结束',& #39; VBN',' O'),' on',' IN',' O'), (' 12月',' NNP',' O'),(' 31',' CD',&# 39; O'),(',',',',' O'),(' 2008', ' CD',' O'),(',',',',' O'), ('一汽',' NNP',' B-ORGANIZATION'), ('解放',' NNP',' I-ORGANIZATION'),(' Automotive',' NNP', ' I-ORGANIZATION'),(' Co。',' NNP',' O'),(',& #39;,',',' O'),('有限公司', ' NNP' O'),'东风',' NNP'' B-ORGANIZATION'), (' Axle',' NNP', ' I-ORGANIZATION'),(' Co。',' NNP',' O'),(',& #39;,',',' O'),('有限公司', ' NNP' O'),' ShiYan',' NNP'' B-ORGANIZATION'), ('汽车&#39 ;,   ' NNP',' I-ORGANIZATION'),'作品'' NNP'' I-ORGANIZATION' ),('和', ' CC',' O'),'一汽',' NNP'' B-ORGANIZATION'), ('青岛',' NNP', ' I-ORGANIZATION'),('汽车',' NNP',' I-ORGANIZATION'),'作品&# 39 ;, ' NNP',' I-ORGANIZATION'),('记帐',' VBD',' O&# 39;),(' for',' IN', ' O')(' about',' RB',' O'),(' 6.5', ' CD',' O'),('%',' NN', ' O'),(',',',',' O'),(' 6.0' ;,' CD',' O'),('%',' NN',' O') ,('和', ' CC',' O'),(' 5.3',' CD',' O'),( '%',' NN',' O'),'',' IN',&# 39; O&#39), ('总计',' JJ',' O'),'销售',' NNS',&# 39; O'),('收入',' NN',' O'), (',',',',' O'),('分别',' RB', ' O'),('。','。',' O')]
句子2> [(&#39 ;;',':',' O'),(&#39 ;;',':&## 39;,' O'),(&#39 ;;',':',' O'), (&#39 ;;',':',' O'),(&#39 ;;',':' ;,' O'),' PRINCIPAL',' NNP' O' O'), (' CUSTOMERS'' NNPS',' O'),' In',' IN',&# 39; O'),('财政',' JJ',' O'), (' 2004',' CD',' O'),(',',',', ' O'),''' DT',' O'),'公司', ' NNP' O'),'派生',' VBD'' O'),(& #39;大约',' RB',' O'), (' 38',' CD',' O'),('%',' NN',& #39; O'),('(','(',' O'),' $' ,' $',' O'), (' 14,706,748',' CD',' O'),(')',')' ,' O'('',' IN',' O'),'其', ' PRP $',' O'),('合并',' JJ'' O'), ('收入',' NNS',' O'), ('来自',' IN',' O'),('继续',' VBG',&# 39; O'),('操作',' NNS', ' O'),('来自',' IN',' O'),('直接',& #39; JJ',' O'),'交易', ' NNS' O'),('',' IN',' O'),(& #39;',' DT',' O'),(' Home',' NNP', ' B-ORGANIZATION'),(' Depot',' NNP',' I-ORGANIZATION'),(&# 39;,',',', ' O'),(' Inc',' NNP',' O'),('。', '。',' O')
第3句 [(&#39 ;;',':',' O'),(&#39 ;;',':&## 39;,' O'),(&#39 ;;',':',' O'),(&#39 ;; ',':',' O'), (&#39 ;;',':',' O'),(' Delphi',' NNP&# 39;,' B-ORGANIZATION'),(' Corporation', ' NNP' O'),'',' VBZ'' O'),(& #39;',' DT',' O'),'橡胶'' NNP', ' O'),('群组',' NNP',' O'),('最大',& #39; JJS',' O'),'客户', ' NN'' O'),('。','。',' O')]
我训练基于; 那些标记数据(约3700个句子)+用于NER分类的基本特征(上一个和下一个5个单词,单词形状(上部,标题,包含数字等),前一个单词IOB标记)< / p>
我尝试了几乎所有机器学习技术,包括MLP,然而,分类远非准确。
我认为这是因为,根据我的标签规则被归类为客户的词,不仅受到前一个和下一个n个词的影响,而且受到整个句子的类型和结构的影响。例如,从第1句开始,一汽解放汽车公司被标记为“组织”和“组织”。机器(计算机)应该注意到它属于&#39;主题块&#39;其次是&#39;占收入的比例&#39;这是分类决策的一个非常重要的特征。
总结一下,我正在寻找能够解决上述问题的NER机器学习技术(NER分类,也可以处理整个句子的特征)。
或者使用其他方式代替NER会更明智吗?