鉴于大写名称转换为Proper Case,处理“O'Hara”,“McDonald”,“van der Sloot”等

时间:2012-07-17 19:09:58

标签: php regex text text-processing text-parsing

我以大写字母提供了一个名单。为了在电子邮件中致敬,我希望他们能成为正确的。

使用PHP的ucwords很容易。但我觉得我需要一些正则表达式函数来处理常见异常,例如:

  “奥哈拉”,“麦当劳”,“范德罗”等等。

我需要帮助构建一个正则表达式语句来处理上面的三个例子(那会很好),因为我不知道所有常见的例外是什么。

以前肯定有人遇到过这个问题,有关发布解决方案的指示或者你可以分享的内容吗?

3 个答案:

答案 0 :(得分:2)

在简短提供的列表中使用正则表达式可能很容易,但如果您必须处理数百或数千条记录,则很难防弹。

我宁愿使用不会影响别人的东西。你怎么知道“MACDONALD”先生是否更喜欢“Macdonald”?

你正在纠正其他人的错误。如果无法纠正来源,您可以使用以下内容:

<?php

$provided_names = array(
  "SMITH",
  "O'HARA",
  "MCDONALD",
  "JONES",
  "VAN DER SLOOT",
  "MACDONALD"
);

$corrected_names = array(
  "O'HARA"        => "O'Hara",
  "MCDONALD"      => "McDonald",
  "VAN DER SLOOT" => "van der Sloot"
);

$email_text = array();

foreach ($provided_names as $provided_name)
{
  $provided_name = !array_key_exists($provided_name, $corrected_names) 
    ? ucwords(strtolower($provided_name)) 
    : $corrected_names[$provided_name];
  $email_text[]  = "{$provided_name}, your message text.";
}

print_r($email_text);

/* output:
Array
(
  [0] => Smith, your message text.
  [1] => O'Hara, your message text.
  [2] => McDonald, your message text.
  [3] => Jones, your message text.
  [4] => van der Sloot, your message text.
  [5] => Macdonald, your message text.
)
*/
?>

我希望它有用。

答案 1 :(得分:2)

我今天写了这篇文章,以便在我正在开发的应用程序中实现。我认为这段代码对评论非常自我解释。它在所有情况下都不是100%准确,但它可以轻松处理大部分西方名称。

示例:

mary-jane => Mary-Jane

o'brien => O'Brien

Joël VON WINTEREGG => Joël von Winteregg

jose de la acosta => Jose de la Acosta

代码是可扩展的,因为您可以将任何字符串值添加到顶部的数组以满足您的需要。请研究它并添加可能需要的任何特殊功能。

function name_title_case($str)
{
  // name parts that should be lowercase in most cases
  $ok_to_be_lower = array('av','af','da','dal','de','del','der','di','la','le','van','der','den','vel','von');
  // name parts that should be lower even if at the beginning of a name
  $always_lower   = array('van', 'der');

  // Create an array from the parts of the string passed in
  $parts = explode(" ", mb_strtolower($str));

  foreach ($parts as $part)
  {
    (in_array($part, $ok_to_be_lower)) ? $rules[$part] = 'nocaps' : $rules[$part] = 'caps';
  }

  // Determine the first part in the string
  reset($rules);
  $first_part = key($rules);

  // Loop through and cap-or-dont-cap
  foreach ($rules as $part => $rule)
  {
    if ($rule == 'caps')
    {
      // ucfirst() words and also takes into account apostrophes and hyphens like this:
      // O'brien -> O'Brien || mary-kaye -> Mary-Kaye
      $part = str_replace('- ','-',ucwords(str_replace('-','- ', $part)));
      $c13n[] = str_replace('\' ', '\'', ucwords(str_replace('\'', '\' ', $part)));
    }
    else if ($part == $first_part && !in_array($part, $always_lower))
    {
      // If the first part of the string is ok_to_be_lower, cap it anyway
      $c13n[] = ucfirst($part);
    }
    else
    {
      $c13n[] = $part;
    }
  }

  $titleized = implode(' ', $c13n);

  return trim($titleized);
}

答案 2 :(得分:2)

我为此写了一个小的lib:https://github.com/tamtamchik/namecase 您可以使用Composer安装它。

对于您的输入,它使用以下代码生成您需要的内容:

<?php

require_once 'vendor/autoload.php'; // Composer autoload

$arr = ["O'HARA", "MCDONALD", "VAN DER SLOOT"];

foreach ($arr as $name) {
    echo $name . ' => ' . str_name_case($name) . PHP_EOL;
}

在任何名称字符串上调用lib附带的函数str_name_case,它将被转换为正确的大小写。对于您的示例,输出将变为:

  

O'HARA =&gt;奥哈拉
  MCDONALD =&gt;麦当劳
  VAN DER SLOOT =&gt; van der Sloot