2.1 引言
莎士比亞研究一直是西方文學(xué)研究的“顯學(xué)”之一,相關(guān)著作可謂“汗牛充棟”。自20世紀(jì)初以來(lái),莎劇的多個(gè)漢譯本相繼問(wèn)世,其中影響較大的譯本有朱生豪(1947)、梁實(shí)秋(1947)和方平(2000)等翻譯的漢譯本。這些譯本對(duì)我國(guó)現(xiàn)代戲劇和文學(xué)創(chuàng)作產(chǎn)生了深遠(yuǎn)的影響,而且很大程度上豐富了漢語(yǔ)的表現(xiàn)形式。然而,莎劇漢譯研究的廣度和深度仍然比較有限。現(xiàn)階段莎劇漢譯研究局限于具體詞匯或修辭手法的翻譯研究,而關(guān)于句法和語(yǔ)篇層面的研究成果比較少見(jiàn),且多為定性研究,較少進(jìn)行定量研究,鮮有成果。此外,鮮有成果利用語(yǔ)料庫(kù)方法對(duì)莎劇的漢譯開(kāi)展系統(tǒng)和深入的研究。
很顯然,這與莎劇漢譯本在中國(guó)文學(xué)乃至文化發(fā)展歷程中的重要地位十分不相稱。究其原因,主要是因?yàn)樯瘎”径啵瑑?nèi)容博大精深,莎劇漢譯研究因而費(fèi)時(shí)費(fèi)力。顯見(jiàn),建設(shè)莎士比亞戲劇英漢平行語(yǔ)料庫(kù),開(kāi)展基于語(yǔ)料庫(kù)的莎劇漢譯研究十分重要。研究人員可以充分利用語(yǔ)料庫(kù)儲(chǔ)存數(shù)據(jù)大、計(jì)算機(jī)運(yùn)行速度快、語(yǔ)料庫(kù)工具能準(zhǔn)確對(duì)大量數(shù)據(jù)進(jìn)行分析的優(yōu)勢(shì),系統(tǒng)、全面地對(duì)多個(gè)莎劇漢譯本進(jìn)行比較分析,通過(guò)數(shù)據(jù)分析和功能闡釋相結(jié)合,獲得客觀可信的研究結(jié)果。
為此,我們自2005年起便開(kāi)始著手建設(shè)莎士比亞戲劇英漢平行語(yǔ)料庫(kù)。經(jīng)過(guò)數(shù)年的努力,我們已建成莎士比亞戲劇英漢平行語(yǔ)料庫(kù),并開(kāi)展了一系列前期研究。該語(yǔ)料庫(kù)收入莎劇原著,這些戲劇的梁譯本、朱譯本及方譯本,以及漢語(yǔ)原創(chuàng)戲劇,總庫(kù)容為3068634字(詞),具體情況如表2.1所示。
表2.1 莎士比亞戲劇英漢平行語(yǔ)料庫(kù)的構(gòu)成
根據(jù)表2.1,漢語(yǔ)原創(chuàng)戲劇的形符數(shù)與方譯本和朱譯本的形符數(shù)相當(dāng)接近,與梁譯本的形符數(shù)也相差不大。因而,漢語(yǔ)原創(chuàng)戲劇與莎劇的以上漢譯本之間具有較為理想的可比性。
應(yīng)當(dāng)指出,建設(shè)平行語(yǔ)料庫(kù),尤其建設(shè)能夠?qū)崿F(xiàn)一個(gè)原著與三個(gè)譯本句級(jí)對(duì)齊,且?guī)烊葸_(dá)數(shù)百萬(wàn)字的語(yǔ)料庫(kù),不僅要耗去大量的人力和物力,而且技術(shù)層面亦具有較大難度。本節(jié)擬介紹莎士比亞戲劇英漢平行語(yǔ)料庫(kù)的創(chuàng)建過(guò)程。
一般而言,英漢平行語(yǔ)料庫(kù)的創(chuàng)建步驟主要為:①中英文語(yǔ)料的選擇與輸入;②語(yǔ)料的預(yù)處理;③語(yǔ)料的標(biāo)注和分詞;④語(yǔ)料的平行對(duì)齊;⑤語(yǔ)料庫(kù)出版;⑥語(yǔ)料庫(kù)網(wǎng)上檢索。目前,莎士比亞戲劇英漢平行語(yǔ)料庫(kù)已完成第1至第4個(gè)步驟。至于語(yǔ)料庫(kù)的出版和網(wǎng)上檢索,待完成所有語(yǔ)料的輸入和深加工,并解決相關(guān)版權(quán)問(wèn)題之后方可進(jìn)行。
2.2 中英文語(yǔ)料的選擇與輸入
自莎劇全集問(wèn)世以來(lái),英文版本為數(shù)眾多,受到人們推崇的版本主要有牛津版(1743)、撒繆爾·約翰遜版(1765)、里德版(1803)、和河畔版(1974),以及阿登系列版本(1899,1958,1995),等等。牛津版是托馬斯·漢默(Sir Thomas Hanmer)編輯的6卷本《莎士比亞作品集》,分別于1743年和1770年在牛津出版。該版本是早期版本中??北容^仔細(xì)的。撒繆爾·約翰遜版是由《英語(yǔ)辭典》編撰者撒繆爾·約翰遜編輯的8卷本《莎士比亞戲劇集》,1765年在倫敦出版。該版本收入許多莎學(xué)名家的相關(guān)評(píng)論和編者所作的注釋。里德版是里德主編的莎學(xué)史上規(guī)模最大的21卷本《第一集注本》(The First Variorum)。該版本收入相關(guān)莎學(xué)評(píng)論和注釋,并附有詞匯索引。河畔版,即伊文斯(G.Blakemore Evans)主編的一卷本《河畔本莎士比亞》(The Riverside Shakespeare)(波士頓,1974),是目前在莎士比亞課堂教學(xué)中受到師生歡迎的版本?!栋⒌前嫔勘葋啞肥装嬷骶幨侵勘葋唽W(xué)者克雷格(W.J.Craig,1899——1906),后由另一著名莎士比亞學(xué)者珂斯(R.H.Case,1909——1924)繼任主編。第二版又稱《新阿登版莎士比亞》,主編是莎學(xué)家厄里斯-菲莫爾(UnaEllis-Fermor,1946——1958)教授,由繆修安出版公司(Methuen&Co.Ltd.)出版,收入莎士比亞37個(gè)劇本、兩首長(zhǎng)詩(shī)和所有十四行詩(shī)。第3版《阿登版莎士比亞》由倫敦勒爾寧(Thomson Learning)公司出版,共收38個(gè)劇本。經(jīng)過(guò)討論,我們選擇莎劇全集的牛津版作為語(yǔ)料庫(kù)的英文語(yǔ)料。牛津版是公認(rèn)??睖?zhǔn)確的版本,而且莎劇的不同語(yǔ)言譯本均譯自該版本。本語(yǔ)料庫(kù)擬選擇梁實(shí)秋、朱生豪和方平翻譯的3種莎劇全集作為中文語(yǔ)料,其中梁譯本和朱譯本都譯自牛津版。此外,牛津版莎劇全集的電子版可以從互聯(lián)網(wǎng)上免費(fèi)下載,能省去英文語(yǔ)料輸入的大量工作。
就莎劇全集的漢譯本而言,比較知名的主要有曹未風(fēng)譯本、朱譯本、梁譯本和方譯本。曹未風(fēng)譯本由貴陽(yáng)文通書(shū)局于1942年至1944年之間出版,收入曹未風(fēng)譯的莎劇劇本11部。朱譯本最早由世界書(shū)局出版(1947),后來(lái)分別由作家出版社(1954)、人民文學(xué)出版社(1978)、時(shí)代文藝出版社(1996)和譯林出版社(1998)等出版,收入莎劇共37部,其中31部為朱生豪所譯。梁實(shí)秋譯本由臺(tái)灣遠(yuǎn)東圖書(shū)公司出版(1967),收入梁實(shí)秋翻譯的全部莎劇劇本。1995年,內(nèi)蒙古文化出版社和中國(guó)廣播電視出版社同期出版梁實(shí)秋翻譯的《莎士比亞全集》。方譯本《新莎士比亞全集》(河北教育出版社,2000),是由方平和梁宗岱參照歐美當(dāng)代備受重視的Bevington全集本(1992年)與Riverside全集本(1974年),以詩(shī)體方式譯出,以更接近原作體裁和風(fēng)格,重現(xiàn)原作的意境與情態(tài)。我們根據(jù)譯本的影響及所收莎劇劇本是否齊全,最終確定了朱譯本、梁譯本和方譯本為語(yǔ)料庫(kù)的中文語(yǔ)料。
確定語(yǔ)料庫(kù)的中英文文本之后,我們便開(kāi)始進(jìn)行中英文語(yǔ)料的輸入。牛津版莎劇全集和朱譯本可從網(wǎng)上直接下載,并直接轉(zhuǎn)化成TXT格式。梁譯本也可從網(wǎng)上下載,但其格式為PDF格式,需轉(zhuǎn)換成TXT格式。方譯本目前還不能從網(wǎng)上下載,還需要使用高速掃描儀掃描或人工輸入。為保證語(yǔ)料庫(kù)的語(yǔ)料質(zhì)量以及研究的可靠性,我們組織人力仔細(xì)校對(duì)輸入后的語(yǔ)料,檢查語(yǔ)料是否有倒碼、拼寫錯(cuò)誤以及具體內(nèi)容與藍(lán)本出入等現(xiàn)象,并及時(shí)予以更正。
2.3 語(yǔ)料的預(yù)處理
語(yǔ)料的預(yù)處理主要包括格式的統(tǒng)一、各種雜質(zhì)的清除和中英文語(yǔ)料的分存等。作為中文語(yǔ)料的3個(gè)漢譯本分別由不同出版社出版,文本格式如字體、段落編排和文檔格式等各不相同,加之語(yǔ)料輸入方法不同,語(yǔ)料格式問(wèn)題十分突出。為此,我們首先確保3個(gè)漢譯文本格式的一致。應(yīng)當(dāng)指出,直接從網(wǎng)上下載的語(yǔ)料,往往有多余的空格及空行、斷行、多余的語(yǔ)言符號(hào),以及不必要的一些圖形或符號(hào)等。這些雜質(zhì)對(duì)于研究而言沒(méi)有什么實(shí)質(zhì)意義,直接影響著英漢語(yǔ)料平行的質(zhì)量。為去掉語(yǔ)料中多余的空行,我們采用word的替換功能,打開(kāi)編輯菜單的“替換”對(duì)話框。在“查找內(nèi)容”的輸入框中單擊“高級(jí)”按鈕,選擇特殊字符“段落標(biāo)記”兩次,這時(shí)輸入框中會(huì)顯示“^p^p”,然后在“替換為”輸入框中用上面所提的方法插入一個(gè)段落標(biāo)記,即一個(gè)“^p”,再點(diǎn)擊“全部替換”,多余空行會(huì)被刪除。至于空格的刪除,我們采用替換功能把要?jiǎng)h除的空格復(fù)制一行粘貼于“要替換的內(nèi)容”里,下面“替換為”保持空,并按“全部替換”,便可刪除多余的空格。另外,上述莎劇漢譯本均附有數(shù)量不等的注釋,與研究?jī)?nèi)容沒(méi)有多大關(guān)聯(lián),我們均將它們刪除。
在輸入并校對(duì)語(yǔ)料,清除雜質(zhì),統(tǒng)一語(yǔ)料格式之后,我們將每部莎劇的中英文語(yǔ)料分存,分存的每個(gè)文件均以英語(yǔ)命名,以便于文件的查詢和加載。文件名需交代戲劇名稱和語(yǔ)言載體等信息,中文語(yǔ)料的文件名還需說(shuō)明譯者的姓名,如:戲劇《李爾王》英文語(yǔ)料文件名為King Lear_en.txt,中文語(yǔ)料文件名分別為King Lear_cn_liang.txt,King Lear_cn_zhu.txt和King Lear_cn_fang.txt。en意即“英語(yǔ)”,cn表示“漢語(yǔ)”,分別注明文本語(yǔ)言是英語(yǔ)還是漢語(yǔ)。liang,zhu和fang分別表示漢語(yǔ)語(yǔ)料的譯者為梁實(shí)秋、朱生豪和方平。
2.4 語(yǔ)料的分詞和標(biāo)注
莎士比亞戲劇英漢平行語(yǔ)料庫(kù)選用ParaConc軟件對(duì)中英文語(yǔ)料進(jìn)行平行處理,但與英語(yǔ)不同,漢語(yǔ)文字之間沒(méi)有空格,國(guó)外軟件不能對(duì)漢字進(jìn)行識(shí)別和自動(dòng)計(jì)算,常常出現(xiàn)倒碼現(xiàn)象。為此,我們選用漢語(yǔ)詞法分析軟件ICTCLAS對(duì)語(yǔ)料進(jìn)行分詞處理。該軟件由中國(guó)科學(xué)院計(jì)算機(jī)技術(shù)研究所開(kāi)發(fā),其分詞規(guī)范采用了中國(guó)國(guó)家標(biāo)準(zhǔn)GB13715“信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范”。該軟件的功能主要為詞匯切分和詞性標(biāo)注。點(diǎn)擊該軟件的圖標(biāo),便出現(xiàn)以下窗口:
圖2.1 ICTCLAS菜單選項(xiàng)
在圖2.1中,選擇“操作選項(xiàng)”欄目下的“詞語(yǔ)切分”和“一級(jí)標(biāo)注”或“二級(jí)標(biāo)注”,以及“輸出格式”欄目下的“北大標(biāo)準(zhǔn)”、“973標(biāo)準(zhǔn)”或XML格式??紤]到“北大標(biāo)準(zhǔn)”與該軟件的兼容性很強(qiáng),我們將“輸出格式”確定為“北大標(biāo)準(zhǔn)”。然后,選中“處理文件”,上載需進(jìn)行詞語(yǔ)切分和詞性標(biāo)注處理的中文語(yǔ)料,最后選中“運(yùn)行”。這樣,漢語(yǔ)語(yǔ)料的分詞和詞性標(biāo)注便可自動(dòng)完成。
此外,我們還運(yùn)用EmEditor軟件對(duì)中英文語(yǔ)料進(jìn)行段落標(biāo)注處理。由于戲劇通常以人物名稱作為段落的開(kāi)始,故而將人物名稱作為段落標(biāo)注的開(kāi)始。我們?cè)诓檎覚谀恐休斎胝齽t表達(dá)式“n X”?!皀”表示“匹配一個(gè)新行”,“X”為具體人物名稱。在“替換為”欄目中依次輸入“</seg>n<seg>X”。<seg>標(biāo)記表示“segment”。
然后,選中“使用正則表達(dá)式”和“全部替換”,這樣便完成了所有人物對(duì)話段落的標(biāo)注。操作完成后的文檔如圖2.2所示。
圖2.2 進(jìn)行分詞和段落標(biāo)注處理的中文語(yǔ)料
2.5 語(yǔ)料的平行對(duì)齊
如前所述,英漢戲劇均以人物對(duì)話作為段落單位,我們故而運(yùn)用ParaConc軟件,實(shí)現(xiàn)英語(yǔ)原著和漢譯本在人物對(duì)話層面的對(duì)齊,即段落對(duì)齊,之后在此基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)英漢語(yǔ)料句級(jí)層面的對(duì)齊。
首先,點(diǎn)擊ParaConc的“File”(文件)選項(xiàng)中的“Load Corpus Files”(加載語(yǔ)料庫(kù)文件),便會(huì)彈出語(yǔ)料庫(kù)文件加載對(duì)話框(見(jiàn)圖2.3)。
在“Parallel Texts”(平行文本)選項(xiàng)處選擇需要對(duì)齊的文本數(shù)目。本語(yǔ)料庫(kù)旨在實(shí)現(xiàn)一個(gè)英語(yǔ)文本與3個(gè)漢譯文本的對(duì)齊,故需要對(duì)齊的文本數(shù)應(yīng)為4。然后分別點(diǎn)擊“Add”(添加文本)選項(xiàng),加載需要對(duì)齊的英漢語(yǔ)料,并將“align format”(對(duì)齊格式)設(shè)定為“start/stop tags”。ParaConc內(nèi)設(shè)“start/stop tags”(標(biāo)記對(duì)齊)和“delimited segment”(定界符對(duì)齊)。前者支持句與句之間的對(duì)齊,后者支持段落之間的對(duì)齊。
其次,點(diǎn)擊“options”(選項(xiàng))將段落標(biāo)注的格式設(shè)定為“seg”和“/seg”,并單擊“OK”。這樣,ParaConc自動(dòng)對(duì)英漢語(yǔ)料進(jìn)行段落對(duì)齊處理。之后,點(diǎn)擊“Files”(文件)菜單下的“View Corpus Alignment”,選擇需要查看對(duì)齊狀態(tài)的英漢語(yǔ)料,并點(diǎn)擊“alignment”,便彈出語(yǔ)料平行對(duì)齊瀏覽窗口(見(jiàn)圖2.4)。
圖2.3 ParaConc語(yǔ)料庫(kù)文件加載對(duì)話框
圖2.4 ParaConc語(yǔ)料平行對(duì)齊瀏覽窗口
圖2.4顯示的是英漢語(yǔ)料段落之間的對(duì)齊,其中不同顏色表明語(yǔ)句之間的界限,即語(yǔ)句的開(kāi)頭和結(jié)尾。在句子的開(kāi)頭或結(jié)束,單擊鼠標(biāo)右鍵,便會(huì)彈出語(yǔ)料句級(jí)對(duì)齊處理窗口。
圖2.5 ParaConc語(yǔ)料句級(jí)對(duì)齊處理窗口
選中“split segment”(分割對(duì)齊單位),或“merge with next/previous segment”(向下或向上合并對(duì)齊單位),對(duì)英漢語(yǔ)句進(jìn)行拆解或合并處理,通過(guò)手工對(duì)齊的方式實(shí)現(xiàn)英漢語(yǔ)料之間句級(jí)對(duì)齊。
最后,在file(文件)菜單中選擇“Save Workspace”,保存實(shí)現(xiàn)英漢句級(jí)對(duì)齊的英漢語(yǔ)料。
2.6 小結(jié)
莎士比亞戲劇英漢平行語(yǔ)料庫(kù)的創(chuàng)建比較復(fù)雜,而且技術(shù)難度較大。該語(yǔ)料庫(kù)的建設(shè)主要包括語(yǔ)料的選擇和預(yù)處理、語(yǔ)料的標(biāo)注和分詞處理,以及一個(gè)英語(yǔ)原著與3個(gè)漢語(yǔ)譯本的句級(jí)對(duì)齊。經(jīng)過(guò)幾年的探索和努力,我們最終掌握了英漢平行語(yǔ)料庫(kù)的建庫(kù)原則、路徑和具體方法,建成了現(xiàn)有庫(kù)容300余萬(wàn)字詞的莎士比亞戲劇英漢平行語(yǔ)料庫(kù)。