本課題研究的核心目標是圍繞“東亞國家語言漢字詞匯使用現狀”這個中心,重點解決日本、韓國、越南等三個國家語言中漢字詞匯有哪些、漢字詞匯的使用情況如何等問題。作為本課題研究的最終成果,力圖對上述問題作出明確的回答。為了保證本課題研究結果的科學性和準確性,研究過程中引入了一些新的研究方法和研究理念。首先導入大數據的理念,充分發(fā)揮漢日韓越等語言大規(guī)模語料庫的優(yōu)勢,采取全數調查的方法,對反映東亞國家語言中漢字詞匯使用現狀的各項指標開展研究,本課題研究所使用的日語、韓語、越語的文本數據總計達到數億字規(guī)模;其次充分利用先進的計算機自然語言處理技術對日韓越等語言中的漢字詞匯以及漢語和這些語言的通用詞匯進行分析研究,包括既有的日語詞法分析和標注技術、韓語和越語的分詞技術,以及本課題執(zhí)行過程中自主開發(fā)的中日韓越四國語言通用的語料庫分析工具;第三、利用專業(yè)數據庫管理系統(tǒng)對東亞國家語言漢字詞匯及其相關數據進行處理和管理。