在S / O中滚动了几个小时后,我已经走到了尽头。
我的问题: 如何将字符串拆分为不包含空格或任何可能用来爆炸的特殊字符的单词,例如:
$MyString = "thisismyenglishstringofwords";
$MyString2 = "twufhwfddhbfjhd";
上面的字符串可能包含英文单词,或者不能包含英文单词,因此我正在尝试使用php或mysql将字符串拆分为已知的英文单词,但是我发现很难上手。
是否需要使用一个分词器,或者我不知道可以识别给定字符串中的英语词典单词的东西?
我的目标:我有一个1500万条记录的数据集,我想解析该行并更新第二列,其中包含该字符串包含的英语词典单词的数量。
例如:
id | string | word_count
1 aaasafafsa 0
2 todayishard 3
任何帮助将不胜感激,香港专业教育学院比较了很多线程,但大多数人似乎将包含空格的单词拆分或基于特定单词的数组拆分,因为我需要拆分成数十万个可能单词的英语词典单词,是否有一种有效的方法来执行此类似线程:Split strings into Dictionary words