根据列表中的单词拆分文本

时间:2015-05-15 18:19:00

标签: python web-scraping string-split text-analysis

我从参议院的国会记录中得到了一堆文本文件。演讲者由先生/女士/女士确认。 [所有大写的名字]。" (注意结尾的时期)。基本上有些行以"先生为先。 REID&#34。或其他一些参议员,以确定谁在说话。见here for a full example

对于每个文档,我想创建一个带有键的字典{speaker:他们说的话}。如果同一个发言者在文本中两次,我想每次发言时都要连接。

一个想法是根据名称进行拆分,使用所有参议员姓名的列表。最初我打算用isupper()来查找扬声器发生变化的地方,但这会被像McCONNELL这样的名字抛出。

有什么想法?

编辑:举一个小例子,考虑一下这个玩具示例

Mr. REID. Mr. President, thanks for whatever whatever

Mr. McCONNELL. I disagree yadda yaddaa yadaa

Mr. REID. I don't care 'bout yo Mitch

Mr. PAUL. Guyssssss 

这应该是一本字典:

{"REID": "Mr. President, thanks for whatever whatever I don't care 'bout yo Mitch",
 "McCONNEL": "I disagree yadda yaddaa yadaa",
 "PAUL": "Guyssssss"}

0 个答案:

没有答案