Question

我有一项任务是在两个文本中计算相同的短语，以计算暂停预测系统的准确性。

例如：
-原语：I / 1吃早饭/ 1之前/ 1上1学校。
-暂停预测系统中的句子：I / 1拥有/ 1早餐/ 1之前/ 1前往/ 1前往/ 1学校。

我必须获得的输出：
    -related_picked_up_phrase：3
    -related_not_picked_up_phrase：2
    -not_relevant：4

关于如何获得输出编号的说明：
-对于related_picked_up_phrase：检查并计算2个句子之间的相同短语（I，之前，学校= 3）
-对于related_not_picked_up_phrase：检查并计算原始句子中2个句子之间的不同短语（吃早餐，= 2）
-对于not_relevant：检查并计算暂停预测系统中句子中2个句子之间的不同短语（有，早餐，要去= 4）

我们如何在python中编码以计算短语以获得该输出？我已经尝试过，但是找不到确切的计算。

Answer 1

到目前为止，您是否尝试过这种方法：

from multiset import Multiset

original = 'I/1 have breakfast/1 before/1 going to/1 school.'
prediction = 'I/1 have/1 breakfast/1 before/1 going/1 to/1 school.'

original_counts = Multiset(original.split('/1'))
prediction_counts = Multiset(prediction.split('/1'))

print('relevant_picked_up_phrase: ', (original_counts & prediction_counts))
print('relevant_picked_up_phrase: ', (original_counts - prediction_counts))
print('relevant_picked_up_phrase: ', (prediction_counts - original_counts))
print('relevant_picked_up_phrase: ', len(original_counts & prediction_counts))
print('relevant_picked_up_phrase: ', len(original_counts - prediction_counts))
print('relevant_picked_up_phrase: ', len(prediction_counts - original_counts))

您可能需要将multiset与$ pip install multiset一起安装

如何在暂停预测中计算短语

1 个答案: