我有两个字符串 -
"I like running around the track.
I like swimming in the pool, but only in the morning.
我需要从以上两条评论(running around the track
和swimming in the pool
中提取出“喜欢”的内容。
是否有人建议使用文本分析宝石或其他方法来提取这类信息?我不一定需要字数或n-gram,我只想知道与“like
”这个词有关的单词。
答案 0 :(得分:0)
对于快速和肮脏的修复,您可以使用正则表达式搜索“喜欢”的所有形式,并拉出其间和标点符号或换行符之间的所有文本。
答案 1 :(得分:0)
您可以使用依赖项解析器,例如The Stanford Parser 解析你的文本并找到你的情绪词典中的关键词,并可能对消除歧义的依赖类型设置一些限制。例如,依赖关系需要是“dobj”类型(直接对象)。然后根据您的需要遵循依赖结构到短语或句子的结尾。