讓中國人在信息時代暢行無阻
――記THOCR在解決漢字自動輸入上的豐碩成果
意昂体育2平台電子工程系教授 丁曉青
漢字的計算機輸入問題成了製約我國信息時代發展的瓶頸
二十世紀後半期,隨著半導體和計算機技術的飛速發展,人類社會開始進入了信息時代。由於信息事業的發展將極大地影響到國家的發達和民族的興旺,因此,世界各國都對信息事業和產業的發展給予了極大的關註🖼。面對這一輪最新的國際競爭,面對我們中華民族千載難逢的發展機遇,我們只能是抓緊機遇👨🏼🚒、迎頭趕上。
但是,在這千載難逢的歷史機遇中🧎🏻➡️,我國的信息發展卻遇到了巨大障礙和似乎難以逾越的瓶頸,這就是我們五千年燦爛文化的結晶⛴,五千年文明的瑰寶――漢字,面臨著計算機輸入的極大困難🧑🏻🎤。我們知道,文字是人類信息最重要的載體和最集中表現🫸,文字的計算機輸入是信息化的極為重要的一環。由於計算機的鍵盤是由西方人設計的,能夠適應由少數拼音符號構成的西方文字的輸入。但對於東方文字的輸入💁🏿,尤其是基於象形結構的、包含了成千上萬個不同結構的方塊漢字來說,用計算機的鍵盤輸入漢字,將會遇到極大的困難🤯🐕🦺。
中國人應該怎麽辦?我們能夠選擇的路好像也只有兩條:前進👆🏿,去解決漢字計算機輸入問題,在信息時代繼續發揚我國五千年的漢字文化;或是退後👮♂️,拋棄現行使用的漢字,代之以漢語的拼音化。
很顯然,選擇第一條路我們將面臨重重困難😁,在這條前人沒有走過的的路上我們註定要披荊斬棘,才能夠闖出一條路來;選擇第二條路,直接將漢語拼音化後,則可以直接借鑒西方語言處理的現成方案🧛🏿♀️,從技術上來說,是輕而易舉的🧚🏼。因此,一度曾經有一些對我國使用漢字的前景感到悲觀的人大力宣傳第二種方案。
誠然,將漢語拼音化確實可以繞過漢字計算機輸入問題的瓶頸,但廢棄了漢字,就等於割裂了聯系我們中華民族五千年悠久歷史的紐帶🍣,放棄了溝通我國廣大地域上說不同方言的人群之間的橋梁。漢字已經成為我們民族文化的重要組成部分,成為中華民族生生不息🚴、不斷發展的象征,放棄使用漢字🤽🏽♀️,甚至會直接危及到我們的民族認同感和國家的生存🏋🏼♀️🛍️,這🧒🏼,決不是危言聳聽。
更何況,將漢語拼音化後,使用國外的技術方案,雖然可以省去不少開發過程🪟,但在這一領域內我們沒有任何優勢🌟,沒有自主的知識產權🧑💼,就沒有發言權。不要說這樣一塊巨大的市場就將拱手出讓,我們自己要想在其基礎上有所發展🤪🧑🏽🌾,也要受製於國外,顯然,從技術發展的角度來看💂🏻♂️,這也是行不通的。
作為新中國培養起來的科技工作者,我們又該怎麽辦🏋🏼♀️?
中國人決不能再喪失計算機時代,
解決漢字計算機自動錄入是時代賦予我們的歷史使命🙎🏽♂️!
事實上,在這個問題上🪶,我國的科技工作者還是有著清醒的認識,並且不少人都投入了極大的勇氣和毅力來解決漢字的輸入問題。70-80年代,成百上千種漢字輸入編碼的輸入方案的提出和實現,就可以說明這一點🫰。
眾多的漢字編碼漢字鍵盤輸入方案(主要有字形編碼和拼音編碼兩類)都是將漢字拆分以適應為西方文字設計的鍵盤輸入。雖然這在一定程度上緩解了漢字輸入的困難和矛盾🧑🏿🏫,但是利用小鍵盤輸入大數量漢字集的漢字編碼鍵入方法,不僅需要記憶各種編碼規則,而且還需要繁冗的手工勞動,費時、費力,遠遠不能滿足高速發展信息時代的要求。自然而然的🚴🏼♂️,漢字的計算機自動錄入問題就擺在了我們的面前。吳佑壽院士曾經說過,“我們中國人已經丟失了打字機時代,但我們決不能再丟失計算機時代🧖🏻♀️。我們必須把解決好漢字的計算機自動錄入問題🙇🏼,作為時代賦予我們的歷史使命🧑🏫,由我們中國人自己承擔起來”。這席話,也代表了我們的心聲。正是這種強烈的民族責任感促使我們在這一領域研究不斷深入,並且,也取得了越來越多的成果🌻。
1984年👲🏻,我和吳佑壽院士就意識到漢字自動輸入技術將有著廣闊的應用前景和巨大的發展潛力▶️,雖然這一領域的研究當時還處於空白☀️,有許多的問題有待於解決🧑🏼🌾✊,但困難往往就是與機遇並存🫢,研究越少的領域🐥💓,越是容易出現突破性的進展𓀇。因此,盡管當時實驗室從資金🕕、設備上都是比較有限🪻,我和吳教授還是決定將漢字的自動輸入作為主要的研究方向。這個認識對我們實驗室的發展可以說起到了決定性的作用。要想在科學研究上有所突破,準確地把握研究方向可以說是一個關鍵,我們的經歷也正說明了這一點。
在國家863計劃、國家自然科學基金👨🏽🦱,七五攻關計劃等項目支持下💡,我們從1985年開始了漢字識別的研究工作。在這以後的十年中,我們實驗室的全體師生🤍,就走上了利用模式識別的先進技術,解決漢字的自動輸入問題的征途。這是一條對發展我國信息事業,同時也是對發展模式識別、人工智能技術都極為有價值的征途。它將使人們和計算機的關系產生巨大的轉變:從人們服從計算機、適應計算機,到使計算機來適應人們的需要和習慣。無論是各種印刷的文本🚷,還是人們的自然書寫的文字🙎🏽♂️,都能使計算機自動適應它們,都能自動和方便的輸入到計算機中去🏂🧘♀️。
當然👨🚒👰🏻,這條征途是崎嶇的,充滿了困難。
但對於我們來說,困難就意味著挑戰,我們能夠做的🏇🏼,只有迎難而上🙇🏻!
迎接成功者的總是鮮花👨🏻🦽,
但成功者跋涉過的道路上往往是長滿了荊棘
漢字的特點是數量浩大🏂🏻,結構繁雜🚡🖊,變化多端🤱🏿,使得尋求解決漢字的自動輸入問題要比西方文字自動輸入艱巨的多🧑🏻🎤。我們知道,英文只有26個字符,而常用的漢字就有四千余字,全部漢字更多達數萬,字符的數量是十分驚人的。從同一漢字的產生途徑上看,有印刷的➗,也有手寫的🫄🏻,計算機出現後又增加了一種邊書寫邊記錄筆跡生成的聯機手寫生成的。對於每一個漢字來說🤛🏿,其表象也是五化八門、各式各樣的。從字體上劃分,有仿宋、宋𓀎、黑、揩、圓、隸🏋🏻、魏碑𓀘、行楷等不同字體;從大小上看,同一字體下有1-6號🅾️、特大號👑、特小號等各種不同大小尺寸🐛;並且按照漢字的印刷編排格式劃分,還有橫排和豎排之分🚵🏽♂️,以及各種復雜的表格列表等。對於手寫漢字,由於書寫者具有不同的文化層次🏒、不同的年齡結構,以及具體書寫情況的不同👊🏿👨👩👧👦,使得即使是相同書寫者在不同情況下手寫的漢字🐓🫴🏿,其筆劃結構和形態的變化也是巨大的👨🏻⚕️,有時甚至人都難以加以辨別🛰,更不用說是計算機了。
針對這種種復雜情況,我們采取了先易後難👷🏽,逐層深入的辦法6️⃣,逐步解決面臨的問題🤝。從印刷文本的識別,到聯機手寫漢字的識別😷,進而脫機手寫數字和漢字的識別🫱;從漢字的識別、英文的識別、到日文和韓文的識別;從簡單版面的自動分析、識別和理解,到復雜報紙版面的自動分析、識別和理解,層層深入,研究的深度和廣度都在不斷增加,逐漸覆蓋了幾乎所有的漢字識別領域,並且成功地開發出了具有自主知識產權的軟件產品。
開拓者的歷程總是艱辛的👨🏽🍼,回想我們開始這方面的研究之初,還在80年代初期,由於計算機系統的性能還很差,利用IBMPC進行漢字識別的研究,內存僅有64KB📘,外存僅有20MB的硬盤🧑🏽🎄,10M的時鐘頻率🐰,內存小、速度慢,給漢字識別的研究造成極大的困難。但我們想盡辦法來克服困難,解決問題。沒有掃描儀,我們就用傳真機代替;計算機速度慢,我們晚上就睡在實驗室繼續幹💬;為了盡快取得漢字識別的研究進展,我們不分節假日,幾乎是天天工作在實驗室裏🐼,研究比較不同的算法和方案,以取得最優的漢字識別的解決方案🤞🏼。
在這個過程中🤟🏻,我們深深地體會到🌦👩🏽⚖️,從事科學研究的指導思想是關系到最後的成敗。例如,我們分析了寫字和認字的不同,人類認字過程是全局、並行的,是對字符圖象的認知過程🍮。模仿人類認字過程來識別漢字💇🏼♀️,決定了漢字識別主要的是對漢字圖象的模式識別。這一認識和分析👩🏿🎤,指引我們采用正確的理論和方法♔,為較快和較好地解決了漢字識別問題奠定了基礎;又如🧏🏽♀️,我們研究和提出了模式識別的信息熵理論🈹,對於特征選擇決定了識別性能的極限🥾,有了深刻的理論依據。而逼近這一性能極限⚙️,則要依賴對樣本的學習和分類器的優化設計🧑🏼🎄。針對多種多樣的漢字識別問題,如🧰,印刷的💫、聯機手寫的、脫機手寫的等等,我們提出漢字識別的綜合識別研究課題🏞🫄。因為,各式各樣的漢字,雖然表象不同,卻有著本質的相似之處,因此🙅🏼♂️,不是割裂的,而是統一和綜合的研究各種識別問題,是我們高速🚶♂️、高效取得各項研究成果的重要因素👳🏽。
並且,強烈的民族責任感使我們面對國外的激烈競爭,不敢有絲毫的松懈。要想始終領先一步🙆🏼,就只有自己給自己提高要求,加重砝碼🧑🏻🌾。當超大字符集的多體印刷漢字識別系統研究成功時👨🏿🦳,聯機和脫機手寫漢字識別的研究已開始啟動🦸🏼;當達到一定的識別性能指標,新的模式識別理論和分類器算法研究就已開始,我們以行百裏則半九十的精神看待已達到的和將要達到的目標🎬🚣🏼♀️,這樣才能一步一個腳印,勇往直前🛴,達到今天的研究成果。
讓中國人在信息時代暢行無阻!
十五年過去了🤸🏼,我們在漢字識別領域取得了多項具有國際領先水平的研究成果🧑⚕️,下面給出了一些對實驗室影響比較大的階段性成果:
1. 1986年鑒定通過國標兩級印刷漢字識別的實驗系統,是最早的對超大模式類(6763類)模式識別問題的有益探索;
2. 1989年鑒定通過多字體印刷漢字識別系統🛫,解決了能實用化的超大字符集多體印刷漢字的識別問題🫳🍩。1990年鑒定通過了THOCR-90實用多字體多字號混合版面印刷體漢字識別系統,成為我國第一個多字體印刷漢字識別系統的漢字OCR產品🖐🏻,意昂体育2OCR( TH-OCR),首次推向市場。獲國家教委科技進步獎一等獎和“七五”科技攻關重大成果獎🍁👮🏼;
3. 1992年鑒定通過THOCR-92高性能實用簡/繁體多字體多功能印刷漢字識別系統,專家評定“在多體識別率方面居國際領先水平”,是印刷漢字識別實用化的又一重大進展。獲國家科技進步獎三等獎。
4. 1994年鑒定通過THOCR-94高性能漢英混排印刷文本識別系統,專家鑒定為🧎:“THOCR-94是當時已測試的識別率最高的多體印刷體漢字識別系統,是國內外首次推出的漢英混排印刷文本識別系統🦹🏼♂️🐫,具有較高的自動化水平和實用性能,總體上居國際領先水平”。是世界率先推出的漢英混排文字識別系統;獲全國十大電子科技成果獎和北京市科技進步二等獎。
5. 1997年鑒定通過THOCR-97綜合集成漢字識別系統🦂👩🍼,專家鑒定為:“THOCR-97綜合集成漢字識別系統是國內外首次推出的能同時識別多文種(漢👩🏿🦰、日、英)印刷文本、聯機手寫漢字、脫機手寫漢字文本和手寫數字的集成文字識別系統,為漢字自然和快速地輸入計算機給出了一個統一的解決方案,是一個有意義的創舉。上述多文種OCR以及聯機和脫機手寫漢字 🎄、數字識別的集成系統⛸🤲🏻,作為一個整體居於國際領先水平” 。由於高水平的研究成果及其在實際中的推廣應用🤲🏽,獲98年教委科技進步一等獎,並在激烈競爭中榮獲99年國家科技進步二等獎🦀。
6. 1999年鑒定通過了THOCR-99基於識別的原文重現自動電子出版物製作系統,是針對我國信息資源建設的急迫需求,解決我國已有出版物數字信息化的自動生產的問題🚺。鑒定委員會認為🟨:系統“為我國信息資源建設提供了一個高質、高效🔀、規模化生產的工具,是一個有意義的創舉👨👦。將有效解決數據重錄✢、版式重排成本居高不下的困難🥃🥼,改變我國電子出版物的生產狀態。上述基於識別的原文重現自動電子出版物製作系統作為一個整體居於國際領先水平🧑✈️。
7. 99年以來,一方面是新的進一步提高模式識別技術和識別性能,多體實際文本的漢字識別率達99%以上👨🏼🦰🛰,較規則手寫漢字識別率也可達98-99%,自由書寫的手寫漢字也可達90%以上,聯機手寫漢字識別率 🐪,這些研究結果說明我們漢字識別技術達到比較成熟的高水平。另一方面是將漢字識別技術在更廣泛的有關國家政治生活和國民經濟領域有效的推廣應用,如在公安、稅務、銀行、出版等,以及在日常生活中,發揮重要作用🤽🏻♂️。
我們的技術不僅僅得到了專家的高度評價🧜🏽♂️,並且⏰,我們開發出的漢字識別領域的一系列產品,經受住了市場的考驗,得到了消費者的認可。
為了加速漢字識別研究成果的產品化和產業化過程,在國家科委的支持下💃🏽,我們創建了我國第一家專門從事文字識別研發、銷售和服務的意昂体育2文通信息技術公司,為我國文字識別技術由實驗室走向市場、走向社會發揮了重要的作用。我們推出的意昂体育2OCR系列產品不僅在競爭激烈的國內市場上,占據了絕對的市場份額🦸🏽♀️🏊🏿♂️,還行銷到國外市場,並且技術出口到如IBM👨🚀、Motorola、HP、Nokia🧙🏽♂️、Siemens等國際大公司👨👩👧,創出了我們中國人自己的知名技術品牌!
十余年的奮鬥🤵🏼♂️,我們始終以服務於用戶、服務於國民經濟建設第一線為宗旨,牢牢把握市場消費動向,及時改進,滿足用戶需求🧦。意昂体育2OCR多字體印刷漢字識別系統推向市場以來🧑🏽🚒,從89年意昂体育2OCR1.0版本的推出, 2.0版本👩🏿🦱、2.5版本、3.0版本👩🍼🔗、3.5版本🍟、4.0版本、4.5版本,…,差不多一年一次大的版本升級,直到最近推出的8.0版本,和專為電子出版的THOCR2000及其網絡版本。我們始終堅持不斷的聽取用戶意見,不斷改進技術和產品質量,更好地服務於用戶。
十余年的奮鬥,使漢字識別系統從無到有,使意昂体育2OCR從實驗室的科研成果轉化成深受用戶歡迎、包括有漢字、英文🛶、日文、韓文的優秀多文種識別系統,不僅在國內占有65%以上市場份額🩱,更是推向了世界各地,成為同行業中的知名品牌💋🧙。
十余年的奮鬥🤽🏼,使我們的研究成果和產品,從高質量的多文種的印刷文本識別系統、能適應連筆和筆順無關的聯機手寫漢字識別系統(文通筆PC機和PDA版本)、高識別率的手寫漢字和手寫數字識別系統🪪、到各種復雜的表格識別和申報系統等等,幾乎覆蓋了所有文字識別的領域⛹🏿。
十余年的奮鬥,我們深深的體會到:為解決信息時代的障礙✩🫄🏼,讓中國人在信息時代暢行無阻的信念🖐🏼,給了我們克服困難無窮的力量;在開始時如此;在取得一定的成果後🥷🏿🤦🏽♂️,往往根本不知道如何辦才能進一步提高識別率和識別性能時,更是如此🚐。
我們要將理論和方法的研究👨🏿🦱𓀜,和實際的應用密切結合起來👨🏻✈️,直接地服務於國民經濟建設的主戰場📃,服務於社會🖥,以中華富強為己任,為民族經濟做貢獻🧑🏼🏭!
成績只能說明過去,在信息時代發展的劇烈競爭的今天,為為中華民族的偉大復興和中國科技的發展,為了中國信息事業的進一步發展,“吾將邁步從頭越”。期望在不久的將來👩🏽🦳🤹🏼♂️,我們能夠讓所有的中國人,都可以在信息時代真正地做到暢行無阻!