如何在暂停预测中计算短语

时间:2019-01-30 03:41:46

标签: python arrays python-3.x phrase

我有一项任务是在两个文本中计算相同的短语,以计算暂停预测系统的准确性。

例如:
-原语:I / 1吃早饭/ 1之前/ 1上1学校。
-暂停预测系统中的句子:I / 1拥有/ 1早餐/ 1之前/ 1前往/ 1前往/ 1学校。

我必须获得的输出:
    -related_picked_up_phrase:3
    -related_not_picked_up_phrase:2
    -not_relevant:4

关于如何获得输出编号的说明:
-对于related_picked_up_phrase:检查并计算2个句子之间的相同短语(I,之前,学校= 3)
-对于related_not_picked_up_phrase:检查并计算原始句子中2个句子之间的不同短语(吃早餐,= 2)
-对于not_relevant:检查并计算暂停预测系统中句子中2个句子之间的不同短语(有,早餐,要去= 4)

我们如何在python中编码以计算短语以获得该输出?我已经尝试过,但是找不到确切的计算。

1 个答案:

答案 0 :(得分:1)

到目前为止,您是否尝试过这种方法:

from multiset import Multiset

original = 'I/1 have breakfast/1 before/1 going to/1 school.'
prediction = 'I/1 have/1 breakfast/1 before/1 going/1 to/1 school.'

original_counts = Multiset(original.split('/1'))
prediction_counts = Multiset(prediction.split('/1'))

print('relevant_picked_up_phrase: ', (original_counts & prediction_counts))
print('relevant_picked_up_phrase: ', (original_counts - prediction_counts))
print('relevant_picked_up_phrase: ', (prediction_counts - original_counts))
print('relevant_picked_up_phrase: ', len(original_counts & prediction_counts))
print('relevant_picked_up_phrase: ', len(original_counts - prediction_counts))
print('relevant_picked_up_phrase: ', len(prediction_counts - original_counts))

您可能需要将multiset$ pip install multiset一起安装