将注释中的字节跨度与文本文档Python或Java相匹配

时间:2013-07-16 12:42:55

标签: java python nlp byte tagged-corpus

我正在使用MPQA意见语料库,其中注释和文档保存在单独的文件中。注释文件包含文档中的字符偏移量(字节跨度) 例如 850,861

string  GATE_direct-subjective   
expression-intensity="medium"
attitude-link="a4"
nested-source="w, patient" 
intensity="medium" 
polarity="negative"

如何将这些字节跨度匹配到文本文档中?我很感激任何想法!我更喜欢使用Python,但Java中的解决方案也很好。

1 个答案:

答案 0 :(得分:0)

我不是100%肯定我正确地理解了这个问题,但是如果你需要一个子字符串并且你有字符位置,解决方案很简单。

Python解决方案:

>>> sometext = "Grant D is a great guy."
>>> character_offset = [0, 7]
>>> subString = sometext[character_offset[0]:character_offset[1]]
>>> print subString
Grant D
>>>