計算機中文信息處理技術
計算機中文信息處理技術需要解決的首要問題就是漢字的輸入技術,主要方法有鍵盤輸入、聯(lián)機手寫輸入、語音輸入、光電掃描輸入幾大類。
鍵盤輸入方法是通過鍵入漢字的輸入碼方式輸入漢字,通常要敲擊1~4個鍵輸入一個漢字,它的輸入碼主要有拼音碼、區(qū)位碼、純形碼、音形碼、形音碼等,用戶需要會拼音或記憶輸入碼才能使用,一般對于非專業(yè)打字的使用者來說,速度較慢,但正確率高;其中好的形音碼或音形碼則可以做到速度即快,正確率又高。
聯(lián)機手寫輸入是近年來發(fā)明的一種新技術,手寫輸入系統(tǒng)一般由硬件和軟件兩部分構成,硬件部分主要包括電子手寫筆和寫字板,軟件部分是漢字識別系統(tǒng)。使用者只需用與主機相連的書寫筆把漢字寫在書寫板上,寫字板中內置的高精密的電子信號采集系統(tǒng),就會將漢字筆跡的信息轉換為數(shù)字信息,然后傳送給識別系統(tǒng)進行漢字識別。利用軟件讀取書寫板上的信息,分析筆劃特征,在識別字庫中找到這個字,再把識別的漢字顯示在編輯區(qū)中,通過“發(fā)送”功能將編輯區(qū)的文字傳到其他文檔編輯軟件中。漢字識別系統(tǒng)的作用是將硬件部分傳送來的信息與事先存儲好的大量漢字特征信息相比較,從而判斷寫的是什么漢字,并通過漢字系統(tǒng)在計算機的屏幕上顯示出來。這種輸入法的好處是只要會寫漢字就能輸入,不需要記憶漢字的輸入碼,與日常寫字一樣,但受識別技術的限制,速度一般。手寫輸入系統(tǒng)的難點在于漢字筆跡的識別,因為每一個人的書寫漢字筆跡都不一樣,因此手寫筆跡比較系統(tǒng)就必須能允許一定的模糊偏差,才能有較高的識別率。目前已經開發(fā)了許多種手寫輸入系統(tǒng),簡稱為“手寫筆”系統(tǒng)。有些手寫筆可以代替鼠標進行操作。
語音輸入也是近年來一種新技術,它的主要功能是用與主機相連的話筒讀出漢字的語音,利用語音識別系統(tǒng)分析辨識漢字或詞組,把識別后的漢字顯示在編輯區(qū)中,再通過“發(fā)送”功能將編輯區(qū)的文字傳到其他文檔的編輯軟件中。語音識別技術的原理是將人的話音轉換成聲音信號,經過特殊處理,與計算機中已存儲的已有聲音信號進行比較,然后反饋出識別的結果。這項技術的關鍵在于將人的話音轉換成聲音信號的準確性,以及與原有聲音信息比較時的智能化程度。語音識別技術是人工智能的有機組成部分。這種輸入的好處是不再用手去輸入,只要會讀出漢字的讀音即可,但是受每個人漢字發(fā)音的限制,不可能都滿足語音識別軟件的要求,因此在實際應用中錯誤率較鍵盤輸入高。特別是一些專業(yè)技術方面的語言,識別系統(tǒng)幾乎不能確認,錯誤率較高。
光電掃描輸入是利用計算機的外部設備——光電掃描儀,首先將印刷體的文本掃描成圖像,再通過專用的光學字符識別(ocr-optical character recognition)系統(tǒng)進行文字的識別,將漢字的圖像轉成文本形式,最后用“文件發(fā)送”或“導出”輸出到其他文檔編輯軟件中。這種輸入方法的特點是只能用于印刷體文字的輸入,要求印刷體文字清晰,才能識別率高,好處是快速、易操作,但受識別系統(tǒng)識別能力的限制,后期要做一些編輯修改工作。