Question

我从参议院的国会记录中得到了一堆文本文件。演讲者由先生/女士/女士确认。 [所有大写的名字]。＆＃34; （注意结尾的时期）。基本上有些行以＆＃34;先生为先。 REID＆＃34。或其他一些参议员，以确定谁在说话。见here for a full example。

对于每个文档，我想创建一个带有键的字典{speaker：他们说的话}。如果同一个发言者在文本中两次，我想每次发言时都要连接。

一个想法是根据名称进行拆分，使用所有参议员姓名的列表。最初我打算用isupper（）来查找扬声器发生变化的地方，但这会被像McCONNELL这样的名字抛出。

有什么想法？

编辑：举一个小例子，考虑一下这个玩具示例

Mr. REID. Mr. President, thanks for whatever whatever

Mr. McCONNELL. I disagree yadda yaddaa yadaa

Mr. REID. I don't care 'bout yo Mitch

Mr. PAUL. Guyssssss

这应该是一本字典：

{"REID": "Mr. President, thanks for whatever whatever I don't care 'bout yo Mitch",
 "McCONNEL": "I disagree yadda yaddaa yadaa",
 "PAUL": "Guyssssss"}

根据列表中的单词拆分文本

0 个答案: