我正在尝试使用CRFSuite,但我无法弄清楚如何使用示例/ ner.py和pos.py
准确地说,我如何输入表格:
# Ner.py
fields = 'y w pos chk'
或
# Pos.py
fields = 'w num cap sym p1 p2 p3 p4 s1 s2 s3 s4 y'
“y w pos”我可以从CoNNL模型获得,例如,但是“chk”部分和pos.py中的所有那些字段我都没有真正得到。
另外,有没有办法用CRFSuite处理原始文本(没有所有这些标签),因为我有一个训练有素的模型?
答案 0 :(得分:2)
@michele是对的。此任务需要另一个数据集。我相信数据集在这里:http://www.cnts.ua.ac.be/conll2003/ner/
答案 1 :(得分:1)
答案 2 :(得分:0)
事实证明,稍微修改pos.py
文件以执行它应该执行的操作更简单。现在pos.py
的输入格式为'w y'
,而功能'num cap sym p1 p2 p3 p4 s1 s2 s3 s4'
全部由脚本本身生成。这应解决pos.py
问题。这是要点:
https://gist.github.com/fnl/21116fa57527946c5dbe
至于ner.py
脚本,正如@Legend已经回答的那样,可以找到相关的输入数据格式,例如: