我使用parsey mcparseface和syntaxnet来解析一些文本。我希望提取单词的位置数据和解析树。
目前的输出是:
echo 'Alice brought the pizza to Alice.' | syntaxnet/demo.sh
Input: Alice brought the pizza to Alice .
Parse:
brought VBD ROOT
+-- ALice NNP nsubj
+-- pizza NN dobj
| +-- the DT det
+-- to IN prep
| +-- Alice NNP pobj
+-- . . punct
我需要它
Input: Alice brought the pizza to Alice .
Parse:
brought VBD ROOT 2
+-- Alice NNP nsubj 1
+-- pizza NN dobj 4
| +-- the DT det 3
+-- to IN prep 5
| +-- Alice NNP pobj 6
+-- . . punct 7
或类似的。 (当出现很多相同的单词时,这将特别有用。)
谢谢
答案 0 :(得分:2)
您可以编辑conll2tree.py https://github.com/tensorflow/models/blob/master/syntaxnet/syntaxnet/conll2tree.py
将token_str
更改为
token_str = ['%s %d %s %s' % (token.word, tind,
token.tag, token.label)
for tind,token in enumerate(sentence.token,1)]
应该这样做。