无法识别连字符

时间:2019-10-21 08:42:57

标签: python text split nlp

我正在处理大约24k文本文件,并在'-'上分割了几行。它适用于某些文件,但无法拆分其他文件。

company_participants是一个包含N >= 1元素的列表,每个元素都包含一个名称,后跟一个连字符(“-”),然后是职位。要获取名称,我使用:

names_participants = [name.split('-')[0].strip() for name in company_participants]

仔细检查后,我发现由于某种原因它没有将“-”识别为“-”。

例如,company_participants中的第一个元素是“ robert isom-President”

由于我在空白处进行了拆分,因此调用company_participants[0].split()[2]会返回“-”,并且连字符是第三个元素(索引2)。

然后当我对这是否等于“-”运行布尔值时,我得到False。

company_participants[0].split()[2] == "-"  # Item at index 2 is the hyphen
# Output = False

知道这里发生了什么吗?还有其他看起来像连字符的东西,不是吗?

非常感谢!

1 个答案:

答案 0 :(得分:2)

所以我发现实际上在StackOverflow的其他地方已经回答了这个问题。

显然我在处理“破折号”而不是“连字符”;肉眼看不见差异,但是当我从here复制符号时,它就认出了company_participants[0].split()[2] == "–"返回True。

#textDataProblems
#didNotSeeThatComing

谢谢StackOverflow!