Board logo

主題: [DB] 請問有驢友在繁體中文下用過Sphinx嗎? [打印本頁]

發表人: Vic    時間: 2013-2-20 05:44 PM     主題: 請問有驢友在繁體中文下用過Sphinx嗎?

熊知道大陸有一個叫Coreseek的程式…增加Sphinx對簡體中文的支援…但繁體中文需要另外定制(收費)

再搜索"sphinx 繁體中文"...沒有多少資料…(難道繁體世界很少人用sphinx嗎?

相關的方法...

"charset_type 必須改為 utf-8,然後必須加上 charset_table 跟 ngram_chars 這樣中文檢索就沒有問題了"

來源

但如果這麼簡單就可以達至中文的支援…那coreseek又何必如此大費週章…

所以想問問驢友們的經驗…

熊也會跟上述的方式試試…容後再呈上報告…
發表人: 這個嘛    時間: 2013-2-20 11:47 PM

可以用utf-8就跟簡繁沒關係了吧
說不定那個網站指的簡繁體是GBK編碼跟Big5編碼??
但我覺得沒必要去弄GBK跟Big5了
發表人: Vic    時間: 2013-2-21 02:48 AM

以熊的理解…這與語系本身是有關係的(非編碼)…因為fullt-ext indexing需要知道如何斷字…在英文(or大部份歐洲語系)中…都以空格來分隔詞…如"Hello TWed2k"…

但中文就可能沒有斷字的分隔…如"台灣驢友你好"...在fullt-ext indexing engine看來…這一整個都只是一個詞…不能就字義上將「台灣」「驢友」「你好」作indexing…

根據MySQL的manual提到:


引用:
Ideographic languages such as Chinese and Japanese do not have word delimiters. Therefore, the FULLTEXT parser cannot determine where words begin and end in these and other such languages. The implications of this and some workarounds for the problem are described in Section 12.9, "Full-Text Search Functions".

http://dev.mysql.com/doc/refman/5.5/en/fulltext-restrictions.html


為了解決這問題…最簡單(or最繁雜)就是一本字典…說明「台灣」「驢友」「你好」是一個詞…(還有其他的方法)

但coreseek只對應簡體中文…除了繁簡轉換(可用convertz)外…繁簡中文對某些東西的描述並不一樣…例如:server,"服務器","伺服器"…所以不能直接套用coreseek在繁體中文下…

以上是熊的理解…如果有錯…還請指正。
發表人: jocosn    時間: 2013-5-1 02:06 AM

http://www.lampbrother.net/phptrain/video_9.php

25、26、29 講有提到一點~




歡迎光臨 TWed2k (http://twed2k.org/) Powered by Discuz! 4.1.0