TWed2k - 程式開發討論區 - 請問有驢友在繁體中文下用過Sphinx嗎？

Vic
開墾隊隊長．苦力

老得不能再稱小的熊

今日心情

．積分： 9455
．精華： 28
．文章： 9954
．收花： 79669 支
．送花： 11007 支
．比例： 0.14
．在線： 2912 小時
．瀏覽： 187141 頁
．註冊： 8835 天
．失蹤： 69 天
．大熊國

#1 : 2013-2-20 05:44 PM 只看本作者	送花 (6) 送出中...

熊知道大陸有一個叫Coreseek的程式…增加Sphinx對簡體中文的支援…但繁體中文需要另外定制（收費）

再搜索"sphinx 繁體中文"...沒有多少資料…（難道繁體世界很少人用sphinx嗎？

）

相關的方法...

"charset_type 必須改為 utf-8，然後必須加上 charset_table 跟 ngram_chars 這樣中文檢索就沒有問題了"

來源

但如果這麼簡單就可以達至中文的支援…那coreseek又何必如此大費週章…

所以想問問驢友們的經驗…

熊也會跟上述的方式試試…容後再呈上報告…

相關關鍵字: Sphinx Full-text indexing Sphinx 繁體中文 MySQL coreseek

[如果你喜歡本文章，就按本文章之鮮花～送花給作者吧，你的支持就是別人的動力來源]

本文連接

快速回覆

這個嘛
銀驢友〔高級〕

．積分： 955
．文章： 1507
．收花： 8483 支
．送花： 4976 支
．比例： 0.59
．在線： 4001 小時
．瀏覽： 44473 頁
．註冊： 8064 天
．失蹤： 0 天

#2 : 2013-2-20 11:47 PM 只看本作者	送花 (3) 送出中...

可以用utf-8就跟簡繁沒關係了吧
說不定那個網站指的簡繁體是GBK編碼跟Big5編碼??
但我覺得沒必要去弄GBK跟Big5了

[如果你喜歡本文章，就按本文章之鮮花～送花給作者吧，你的支持就是別人的動力來源]

本文連接

快速回覆

Vic
開墾隊隊長．苦力

老得不能再稱小的熊

今日心情

．積分： 9455
．精華： 28
．文章： 9954
．收花： 79669 支
．送花： 11007 支
．比例： 0.14
．在線： 2912 小時
．瀏覽： 187141 頁
．註冊： 8835 天
．失蹤： 69 天
．大熊國

#3 : 2013-2-21 02:48 AM 只看本作者	送花 (9) 送出中...

以熊的理解…這與語系本身是有關係的(非編碼)…因為fullt-ext indexing需要知道如何斷字…在英文(or大部份歐洲語系)中…都以空格來分隔詞…如"Hello TWed2k"…

但中文就可能沒有斷字的分隔…如"台灣驢友你好"...在fullt-ext indexing engine看來…這一整個都只是一個詞…不能就字義上將「台灣」「驢友」「你好」作indexing…

根據MySQL的manual提到：

引用:

Ideographic languages such as Chinese and Japanese do not have word delimiters. Therefore, the FULLTEXT parser cannot determine where words begin and end in these and other such languages. The implications of this and some workarounds for the problem are described in Section 12.9, "Full-Text Search Functions".

http://dev.mysql.com/doc/refman/5.5/en/fulltext-restrictions.html

為了解決這問題…最簡單(or最繁雜)就是一本字典…說明「台灣」「驢友」「你好」是一個詞…(還有其他的方法）

但coreseek只對應簡體中文…除了繁簡轉換(可用convertz)外…繁簡中文對某些東西的描述並不一樣…例如：server，"服務器","伺服器"…所以不能直接套用coreseek在繁體中文下…

以上是熊的理解…如果有錯…還請指正。

[如果你喜歡本文章，就按本文章之鮮花～送花給作者吧，你的支持就是別人的動力來源]

本文連接

快速回覆

jocosn
白銀驢友

今日心情

．積分： 1386
．精華： 2
．文章： 2945
．收花： 9537 支
．送花： 3671 支
．比例： 0.38
．在線： 1295 小時
．瀏覽： 19041 頁
．註冊： 8068 天
．失蹤： 2070 天

#4 : 2013-5-1 02:06 AM 只看本作者	送花 (0) 送出中...

http://www.lampbrother.net/phptrain/video_9.php

25、26、29 講有提到一點～

[如果你喜歡本文章，就按本文章之鮮花～送花給作者吧，你的支持就是別人的動力來源]

本文連接

快速回覆