Question

<?php
$html = file_get_contents('http://hypermedia.ids-mannheim.de/');
?>

此代码以字符串形式返回网站的html。如何将字符串分成不同的单词？在获取数组中的单个单词后，我想检测哪一个是德语...

Answer 1

$words = explode(' ', strip_tags($html));

或

$words = preg_split("/[\s,]+/", strip_tags($html));

第二个不仅会将空格字符视为分隔符，还会考虑制表符和逗号。

Answer 2

使用正则表达式，类似这样的

#([\w]+)#i

代码示例：

if(preg_match_all('#([\w]+)\b#i', $text, $matches)) {
    foreach($matches[1] as $key => $word) {
        echo $word."\n";
    }
}

然后你必须将每种词典与某种词典进行比较。

Answer 3

我认为您需要将问题分成几个步骤。首先解析返回的html字符串，找出哪个部分是html标签和结构。您可以将DOM用于此目的。

然后，您可以将innerHTML数据与标记分开，并将innerHTML文本拆分为标记以获取数组。 Dunno是最好的方法，但是简单的阵列正则表达式分割可以完成这项工作。

找到德语单词的有趣部分，可以将你的单词列表与字典匹配，再次使用数组或映射...或者更好的是，使用数据库（SQLlite可能比真实 rdbms喜欢mysql）..