我从参议院的国会记录中得到了一堆文本文件。演讲者由先生/女士/女士确认。 [所有大写的名字]。" (注意结尾的时期)。基本上有些行以"先生为先。 REID&#34。或其他一些参议员,以确定谁在说话。见here for a full example。
对于每个文档,我想创建一个带有键的字典{speaker:他们说的话}。如果同一个发言者在文本中两次,我想每次发言时都要连接。
一个想法是根据名称进行拆分,使用所有参议员姓名的列表。最初我打算用isupper()来查找扬声器发生变化的地方,但这会被像McCONNELL这样的名字抛出。
有什么想法?
编辑:举一个小例子,考虑一下这个玩具示例
Mr. REID. Mr. President, thanks for whatever whatever
Mr. McCONNELL. I disagree yadda yaddaa yadaa
Mr. REID. I don't care 'bout yo Mitch
Mr. PAUL. Guyssssss
这应该是一本字典:
{"REID": "Mr. President, thanks for whatever whatever I don't care 'bout yo Mitch",
"McCONNEL": "I disagree yadda yaddaa yadaa",
"PAUL": "Guyssssss"}