Question

我有一些波斯语文本（ direction rlt），我想将它们分开。

示例：

$str =" کامپیوتر : وسیله ی الکتریکی است 1.ماوس 2.کیبورد
       و مانیتور 3. کیس
چاپگر: وسیله ای است برای پرینت بر روی معمولا کاغذ
موبایل : نوعی تلفن است به صورت سیار و بی سیم
که جدیدا خیلی هم رایج شده است
و اکثر انسان ها دارند
خانه : محلی برای زندگی است. 1. حیوانات 2. انواع انسان ها
برای خود خانه می سازند. ";

我想要这个输出：

{
    arr[
       {
         word: "کامپیوتر",
         mean: "وسیله ی الکتریکی است 1.ماوس 2.کیبورد و مانیتور 3. کیس"  
       },

       {
        word: "چاپگر",
        mean: "وسیله ای است برای پرینت بر روی معمولا کاغذ"
       },

       {
        word: "موبایل",
        mean: "نوعی تلفن است به صورت سیار و بی سیم که جدیدا خیلی هم رایج شده است و اکثر انسان ها دارند"
       },

       {
        word: "خانه",
        mean: "محلی برای زندگی است. 1. حیوانات 2. انواع انسان ها برای خود خانه می سازند."
       }
      ]
}

嗯，我想我不能只使用explode(":", $str)。因为单词的意思不是参赛者，所以有时候会有几行。我想我需要正则表达式。那我怎么能这样做呢？

修改：英文示例：

$str = "apple : it is a fruit
       computer : 1.an electronic device for storing and 
        processing data typically in binary form 2. according to
        instructionsgiven to it in a variable program"
        wall: a continuous vertical brick or stone structure
        that encloses or divides an area of land. 1. on the
       wall 2. brick wall 3. climbing wall";

我想要这个输出：

{
    arr[
       {
         word: "apple",
         mean: "it is a fruit"  
       },

       {
        word: "computer",
        mean: "1.an electronic device for storing and processing data typically in binary form 2. according to instructionsgiven to it in a variable program"
       },

       {
        word: "wall",
        mean: "a continuous vertical brick or stone structure that encloses or divides an area of land. 1. on the wall 2. brick wall 3. climbing wall"
       }
      ]
}

Answer 1

您可以使用以下正则表达式：

'~\h*(?<term>[^:\n]*?)\s*:\s*(?<mean>(?:(?!\n\h*[^\n:]*:).)*)~us'

请参阅regex demo

我正在使用已命名的捕获组，以便您以后可以更轻松地访问它们。 请注意，您需要使用/u修饰符来处理PHP正则表达式中的Unicode字符串！

正则表达式匹配：

\h* - 0个或更多水平空格
(?<term>[^:\n]*) - 第1组命名为＆＃34; term＆＃34;匹配:和\n
\s*:\s* - 0个或更多空格后跟:和零个或多个空格
(?<mean>(?:(?!\n\h*[^\n:]*:).)*) - 第2组命名为＆＃34;表示＆＃34;匹配任何字符（因为我使用/s修饰符）没有启动像空格 + term + :这样的序列。这个(?:(?!...).)*构造称为淬火贪婪令牌。您可以将其展开为(?<mean>[^\n]*(?:\n(?!\h*[^\n:]*:)[^\n]*)*)以获得更好的性能（192步与1226相比）。

将正则表达式与preg_match_all而不是preg_replace一起使用，因为您需要一个数组：

$str =" کامپیوتر : وسیله ی الکتریکی است 1.ماوس 2.کیبورد
       و مانیتور 3. کیس
چاپگر: وسیله ای است برای پرینت بر روی معمولا کاغذ
موبایل : نوعی تلفن است به صورت سیار و بی سیم
که جدیدا خیلی هم رایج شده است
و اکثر انسان ها دارند
خانه : محلی برای زندگی است. 1. حیوانات 2. انواع انسان ها
برای خود خانه می سازند. ";
preg_match_all('~\h*(?<term>[^:\n]*?)\s*:\s*(?<mean>(?:(?!\n\h*[^\n:]*:).)*)~us', $str, $m, PREG_SET_ORDER);
print_r($m);

请参阅code demo。

Answer 2

这是一种更好的方法。

这样可行，但您还可以在含义中修改换行符。

坐在发现循环中。当你得到一个匹配时，只需在这个替换上运行含义的内容 - 组2 然后只将结果存储在一个数组中。

查找：\s*\r?\n\s*
替换：＆＃34; ＆＃34;

主要正则表达式：

(?m)^\h*([^:\r\n]*?)\h*:(.*(?:\s*^(?!\h*[^:\r\n]*?\h*:).*)*)

Formatted and tested:

 (?m)
 ^ 
 \h* 
 ( [^:\r\n]*? )                # (1) Word
 \h* :
 (                             # (2 start) Meaning
      .*  
      (?:
           \s* 
           ^          
           (?!
                \h* [^:\r\n]*? \h* :
           )
           .* 
      )*
 )                             # (2 end)

输出：

 **  Grp 1 -  ( pos 1 , len 8 ) 
کامپیوتر  
 **  Grp 2 -  ( pos 11 , len 62 ) 
 وسیله ی الکتریکی است 1.ماوس 2.کیبورد
       و مانیتور 3. کیس  

---------------------

 **  Grp 1 -  ( pos 75 , len 5 ) 
چاپگر  
 **  Grp 2 -  ( pos 81 , len 43 ) 
 وسیله ای است برای پرینت بر روی معمولا کاغذ  

---------------------

 **  Grp 1 -  ( pos 126 , len 6 ) 
موبایل  
 **  Grp 2 -  ( pos 134 , len 90 ) 
 نوعی تلفن است به صورت سیار و بی سیم
که جدیدا خیلی هم رایج شده است
و اکثر انسان ها دارند  

---------------------

 **  Grp 1 -  ( pos 226 , len 4 ) 
خانه  
 **  Grp 2 -  ( pos 232 , len 76 ) 
 محلی برای زندگی است. 1. حیوانات 2. انواع انسان ها
برای خود خانه می سازند.

如何将字符串分隔为多个部分

2 个答案: