应用错误收集

PHP搜索引擎问题

时间：2010-08-04 09:51:49

标签： php mysql character-encoding search-engine

我使用Sphider作为我网站的搜索引擎，它很容易使用，但我对本地化字符有一些重大问题。

我的所有html / php页面都将charset定义为UTF-8，而Sphider的搜索和结果页面有charset = ISO-8859-1，当我第一次使用Sphider“spider”抓取我的网站时我所有的本地化角色都编成了一些我不知道的编纂：

“ç”变为“Ã”，依此类推“ã”，“á”等

当我在MySql中创建数据库时，我将它设为utf-8_general_ci，我对数据库的防御也是： MySQL charset：UTF-8 Unicode（utf8） MySQL连接排序规则：utf-8_unicode_ci

这是一个真正的问题，因为搜索不能正常工作，如果我搜索“diferença”，例如，在url中它将显示为“？query =diferença＆amp; search = 1”这是正确的，但不会产生任何结果“建议搜索”它将显示为“diferen a”，以防它不可见，“ç”变成一个带有白色问号的黑色方块。

我相信蜘蛛可能有不同的工作字符集，但我似乎无法理解是否是这种情况。主要是朝着英语发展，我相信不难理解它在这个过程中会有一些小问题。

有没有人有过这方面的经验，或者我应该尝试做些什么来解决这个问题？

真正烦扰我的是不明白为什么我在DB中得到奇怪的符号。

3 个答案:

答案 0 :(得分：0)

快速浏览一些Sphider源代码文件，发现该应用程序仅适用于Latin1 charset。您应该切换到其他搜索引擎，例如Lucene。你需要做一些与搜索相关的编码。如果您不喜欢这样做，并且您的网站是公开的，只需整合Google搜索。

答案 1 :(得分：0)

你应该在utf-8中拥有一切。

编辑任何指定页面的表单
物理文件
输出的html文件
标题
与数据库的连接
表格定义

小姐，你会遇到问题（我是根据个人经验谈论）

答案 2 :(得分：0)

修改文件的第4行＆＃34; header.html＆＃34;在适当的模板目录中<meta http-equiv="content-type" content="text/html; charset=UTF-8">
转换适当的php文件＆＃34;语言＆＃34;目录为UTF8。

如果上述情况不够，请按照“粉碎机”的回答进行操作。