TWed2k - 程式開發討論區 - 請問有驢友在繁體中文下用過Sphinx嗎？

TWed2k » 程式開發討論區 » 請問有驢友在繁體中文下用過Sphinx嗎？ » 發表回覆

Discuz! 代碼
提示插入
直接插入
說明訊息

添加文字底框

內容 [字數檢查]:

表情符號













更多 Smilies

字型大小

小|中|大|巨

溫馨提示：本區開放遊客瀏覽。

儲存草稿｜恢復草稿｜...

文章關鍵字 : [功能說明]
(關鍵字可加強搜索準確性, 如關鍵字多於一組, 請以 , 作分隔, e.g. : 阿笨,shiuh,第一笨)

關閉 URL 識別 | html 禁用
關閉表情符號 | 表情符號可用
關閉 Discuz! 代碼 | Discuz! 代碼可用
使用個人簽名
接收新回覆信件通知

推薦放檔網絡空間

檔案(Torent, zip等)

圖片(JPG, GIF等)

>>>歡迎推薦好用空間

jocosn

發表於 2013-5-1 02:06 AM

http://www.lampbrother.net/phptrain/video_9.php

25、26、29 講有提到一點～

Vic

發表於 2013-2-21 02:48 AM

以熊的理解…這與語系本身是有關係的(非編碼)…因為fullt-ext indexing需要知道如何斷字…在英文(or大部份歐洲語系)中…都以空格來分隔詞…如"Hello TWed2k"…

但中文就可能沒有斷字的分隔…如"台灣驢友你好"...在fullt-ext indexing engine看來…這一整個都只是一個詞…不能就字義上將「台灣」「驢友」「你好」作indexing…

根據MySQL的manual提到：

引用:

Ideographic languages such as Chinese and Japanese do not have word delimiters. Therefore, the FULLTEXT parser cannot determine where words begin and end in these and other such languages. The implications of this and some workarounds for the problem are described in Section 12.9, "Full-Text Search Functions".

http://dev.mysql.com/doc/refman/5.5/en/fulltext-restrictions.html

為了解決這問題…最簡單(or最繁雜)就是一本字典…說明「台灣」「驢友」「你好」是一個詞…(還有其他的方法）

但coreseek只對應簡體中文…除了繁簡轉換(可用convertz)外…繁簡中文對某些東西的描述並不一樣…例如：server，"服務器","伺服器"…所以不能直接套用coreseek在繁體中文下…

以上是熊的理解…如果有錯…還請指正。

這個嘛

發表於 2013-2-20 11:47 PM

可以用utf-8就跟簡繁沒關係了吧
說不定那個網站指的簡繁體是GBK編碼跟Big5編碼??
但我覺得沒必要去弄GBK跟Big5了

Vic

發表於 2013-2-20 05:44 PM

熊知道大陸有一個叫Coreseek的程式…增加Sphinx對簡體中文的支援…但繁體中文需要另外定制（收費）

再搜索"sphinx 繁體中文"...沒有多少資料…（難道繁體世界很少人用sphinx嗎？）

相關的方法...

"charset_type 必須改為 utf-8，然後必須加上 charset_table 跟 ngram_chars 這樣中文檢索就沒有問題了"

來源

但如果這麼簡單就可以達至中文的支援…那coreseek又何必如此大費週章…

所以想問問驢友們的經驗…

熊也會跟上述的方式試試…容後再呈上報告…