RSS   



  可打印版本 | 推薦給朋友 | 訂閱主題 | 收藏主題 | 純文字版  


 


 
主題: [DB] 請問有驢友在繁體中文下用過Sphinx嗎?   字型大小:||| 
Vic
開墾隊隊長.苦力
等級: 32等級: 32等級: 32等級: 32等級: 32等級: 32等級: 32等級: 32
老得不能再稱小的熊

十週年紀念徽章(五級)   終生苦力熊勳章  

今日心情

 . 積分: 9423
 . 精華: 28
 . 文章: 9950
 . 收花: 79350 支
 . 送花: 11004 支
 . 比例: 0.14
 . 在線: 2907 小時
 . 瀏覽: 187061 頁
 . 註冊: 8220
 . 失蹤: 32
 . 大熊國
#1 : 2013-2-20 05:44 PM     全部回覆 引言回覆

熊知道大陸有一個叫Coreseek的程式…增加Sphinx對簡體中文的支援…但繁體中文需要另外定制(收費)

再搜索"sphinx 繁體中文"...沒有多少資料…(難道繁體世界很少人用sphinx嗎?

相關的方法...

"charset_type 必須改為 utf-8,然後必須加上 charset_table 跟 ngram_chars 這樣中文檢索就沒有問題了"

來源

但如果這麼簡單就可以達至中文的支援…那coreseek又何必如此大費週章…

所以想問問驢友們的經驗…

熊也會跟上述的方式試試…容後再呈上報告…


相關關鍵字: Sphinx  Full-text indexing  Sphinx 繁體中文  MySQL  coreseek  






[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  訪問主頁  發私人訊息  Blog  快速回覆 新增/修改 爬文標記
Vic
開墾隊隊長.苦力
等級: 32等級: 32等級: 32等級: 32等級: 32等級: 32等級: 32等級: 32
老得不能再稱小的熊

十週年紀念徽章(五級)   終生苦力熊勳章  

今日心情

 . 積分: 9423
 . 精華: 28
 . 文章: 9950
 . 收花: 79350 支
 . 送花: 11004 支
 . 比例: 0.14
 . 在線: 2907 小時
 . 瀏覽: 187061 頁
 . 註冊: 8220
 . 失蹤: 32
 . 大熊國
#2 : 2013-2-21 02:48 AM     全部回覆 引言回覆

以熊的理解…這與語系本身是有關係的(非編碼)…因為fullt-ext indexing需要知道如何斷字…在英文(or大部份歐洲語系)中…都以空格來分隔詞…如"Hello TWed2k"…

但中文就可能沒有斷字的分隔…如"台灣驢友你好"...在fullt-ext indexing engine看來…這一整個都只是一個詞…不能就字義上將「台灣」「驢友」「你好」作indexing…

根據MySQL的manual提到:


引用:
Ideographic languages such as Chinese and Japanese do not have word delimiters. Therefore, the FULLTEXT parser cannot determine where words begin and end in these and other such languages. The implications of this and some workarounds for the problem are described in Section 12.9, "Full-Text Search Functions".

http://dev.mysql.com/doc/refman/5.5/en/fulltext-restrictions.html


為了解決這問題…最簡單(or最繁雜)就是一本字典…說明「台灣」「驢友」「你好」是一個詞…(還有其他的方法)

但coreseek只對應簡體中文…除了繁簡轉換(可用convertz)外…繁簡中文對某些東西的描述並不一樣…例如:server,"服務器","伺服器"…所以不能直接套用coreseek在繁體中文下…

以上是熊的理解…如果有錯…還請指正。



[如果你喜歡本文章,就按本文章之鮮花~送花給作者吧,你的支持就是別人的動力來源]
本文連接  
檢閱個人資料  訪問主頁  發私人訊息  Blog  快速回覆 新增/修改 爬文標記

   

快速回覆
表情符號

更多 Smilies

字型大小 : |||      [完成後可按 Ctrl+Enter 發佈]        

溫馨提示:本區開放遊客瀏覽。
選項:
關閉 URL 識別    關閉 表情符號    關閉 Discuz! 代碼    使用個人簽名    接收新回覆信件通知
發表時自動複製內容   [立即複製] (IE only)


 



所在時區為 GMT+8, 現在時間是 2024-11-22 03:43 AM
清除 Cookies - 連絡我們 - TWed2k © 2001-2046 - 純文字版 - 說明
Discuz! 0.1 | Processed in 0.024524 second(s), 7 queries , Qzip disabled