同義詞的處理方式

22 06 2008

在我的論文整理出幾類的問題,每一個問題都可以寫成一個主題,例如:

  1. 空隔:將「YouTube」打成「You Tube」;「發呆」打成「發 呆」;
  2. 意義相同但詞句不同,如:「打電動」與「打電玩」;
  3. 使用簡寫,如:「台灣論壇」與「台論」;「火影」與「火影忍者」;「史萊姆的家」與「史萊姆的第一個家」;
  4. 錯字,如:「想要重獎嗎」;
  5. 將所有興趣打在同一個標籤,如:「睡覺!打屁!玩!」。

也許我應該往歸類的方向去找,例如研究如何把第3點歸成一類,而不是往同義詞的方向去找。

同義要如何定義,是被人們認為是相同義意的就算嗎?光這個問題似乎就可以寫一堆論文了,我在研討會後問中大的幾個研究生及一個博士生,他們說解決方法有三:

  1. 詞庫比對,例如 WordNet
  2. 語意網 (Ontology)
  3. Fuzzy Logic

他們說從 Ontology 的角度實在是做不出來,除了是階層性的資料 (我打算用非階層性的 Folksonomy 標籤去實驗),而且要一直更新,所以才用 Fuzzy 的方式去做,但是最後還是要請專定來定義及認定字詞是否可合併,而且他們還要刻意去閃避同義詞,以免被攻擊。

在 Mediawiki 中是使用「消含糊」、「消歧義」來解決這個問題,但是要人工編輯,人工閱讀,無法自動處理。

相關工具

CKIP

(中文詞知識庫系統, 詞庫小組),他裡面提供的中文斷詞系統,可用它來分析同義詞,我親自去試了一下,我用

  1. 「打籃球」以及「籃球」,它分成:打(VC) 籃球(Na) 籃球(Na)。成功
  2. 「玩籃球」以及「籃球」,它分成:玩(VC) 籃球(Na) 籃球(Na)。成功
  3. 「吃籃球」以及「籃球」,它分成:吃(VC) 籃球(Na) 籃球(Na)。不成功
  4. 「聽音樂」以及「音樂」,它分成:聽(VE) 音樂(Na) 音樂(Na)。成功
  5. 「吃音樂」以及「音樂」,它分成:吃(VE) 音樂(Na) 音樂(Na)。不成功
  6. 「打電動」以及「電動」,它分成:打電動(VA) 電動(A)。不成功
  7. 「打電動」以及「打電玩」,它分成:打電動(VA) 打(VC) 電玩(Na)。不成功

看來斷詞系統的定位是在把詞斷開,拿來分析同義詞可信度不高

WordNet

WordNet 最豐富且 API 最多,是美國人在維護,也最公開可自由取用,問題是無法處理中文。

中文詞彙網路

http://cwn.ling.sinica.edu.tw/

目的要成為中文的 Wordnet。最好使用 IE,在 Firefox 下,有一些問題。

知網

知網 (HowNet!) 是中國人發明的,目的也要成為中文的 Wordnet,也許是一個很好的解決之道,但是不像台灣的可以直接使用,要下載要申請,而且用正體中文一定不會有回音,無法進一步測試,儘此為止。


管理項目

Information

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 變更 )

Twitter picture

You are commenting using your Twitter account. Log Out / 變更 )

Facebook照片

You are commenting using your Facebook account. Log Out / 變更 )

Google+ photo

You are commenting using your Google+ account. Log Out / 變更 )

連結到 %s




%d 位部落客按了讚: