我正在尝试使用 preg-split 拆分我从 .docx(阿拉伯语)获得的文本。 文本样本:
صادر في16 الفقرة الأولى :المتعلق (ج. ر. بتاريخ 8 ذو القعدة 1435 -ويجوز بالتالي إصدار الأمرالفقرة4: القعدة
我需要按照以下规则拆分文字:
المادة\s\d\:\n
或المادة الأولى\s\:\n
我想采用多种模式,如下:
$pattern = "/(الفقرة \s\d\:\n)|(الفقرة الأولى\s\:\n)/";
$splitted_para_arr = preg_split($pattern,$content,null,PREG_SPLIT_NO_EMPTY);
我得到的结果是一个未分裂的数组:
结果:
Array
(
[0] =>
صادر في16 الفقرة الأولى :المتعلق (ج. ر. بتاريخ 8 ذو القعدة 1435 -ويجوز بالتالي إصدار الأمرالفقرة4: القعدة
)
我使用sublime文本作为编辑器,xampp作为webserver