时间:2023-06-16 09:26:26
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇汉字和英语的区别范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
一、word是英语研究的本位
关于word是英语研究的本位,恐怕不会有人反对。不管是1755年约翰逊博士出版的历史上第一本词典还是从希腊开始一千多年的语法研究都是以词为本;不管是19世纪末出现的句本位理论还是20世纪30年代美国描写主义语言学采取的语素本位以及转化生成语言学的构词法,最后都得回到以词为本。
二、关于“字”本位的确立
每种语言的研究都必然有一个基本单位,它是语言研究的出发点。英语的研究的本位是word,那汉语研究的本位是什么?是与英语中word相对应的词本位还是语素本位?赵元任老师从根本上怀疑汉语中类似于word这个单位的存在,吕老师则指出汉语里的“词”之所以不容易归纳出一个令人满意的定义,就是因为汉语中本来没有这样一种现成的东西,讲汉语语法也不一定非有此不可。张志公老师最早开始对语素本位的怀疑。在其之后徐通锵老师也指出汉语中不仅没有语素这种单位,而且连这种概念也没有。说到底,有没有资格成为一种语言“本位”的基本条件主要在于其是否具有天然性,词和语素之所以没能成为这样一个单位的根本原因在于它们是人为分析出来的并不具备天然性。所以华东师范大学潘文国教授曾明确提出“字与 word 对应”,他认为 word 是英语的基本结构单位,“字”是汉语的基本结构单位,所以“字”本位在汉语研究中的地位开始确立。
三、“字”与 Word 的对应性
word 是英语的基本结构单位,“字”是汉语的基本结构单位,它们各自决定所属语言的特点,二者的共性如下:(1)二者都是语言的天然单位。(2)二者都是各自民族认识世界的基本单位。(3)二者都是在语法上处于承上启下的枢纽位置,是词(字)法与句法的交接点。Word 和字都是“天然单位”,这也是将它们作为本位研究最简单最合理的理由。关于第二点民族认识世界的单位,西方《圣经》中关于语言的起源说明世界是通过命名创造的,而命名通常是语词,而语词反映了人类对世界的认识,所以他们将语词(word)作为认识世界的基本点。在汉语关于语言起源的传说中,可以看到文字在中国古代人民心中占有极高的地位以及人们对文字的重视。关于最后一点首先引用西方学者莱昂斯的话:在传统语法当中,词是顶级重要的单位,它是区分词法和句法的基础,又是词汇学的最主要单位。英语中的词法和句法是两分的,以词作为连接两者的枢纽去讲语法是妥当的,但是汉语没有词法,所以研究汉语讲清句法就可以。汉语研究的本位是字,字以上是句法字以下是字法,所以字在语法上处于承上启下的枢纽位置,是字法与句法的交接点。
四、“字”与 Word 的非对应性
汉字的产生直接取象于天、地、动植物以及人与周围的事物,无需经过语音媒介,虽然语音是文字之所是文字而不是图画的必要条件但是它在汉语中是处于次要位置的。汉字的发展过程分为文和字两个阶段,第一阶段“文”依类象形,即按照客观事物本来面目进行摹写,为“六书”中的象形、指事、会意;第二阶段“字”,在形上添声为形声,在声上添形为转注,单纯利用读音的为假借。这里所说的“文”和“字”实际上就是传统研究中的“初文”(“初文”就是最初产生的语词)和“孳乳字”(“孳乳字”则是在初文基础上孳乳出来的语词)。英国学者哈特曼(Hartmann)和斯托克(Stork)讲词的构成时采用的也是这种二分法,他首先将词分成两类:原生词(Primary Word)和次生词(Secondary Word)。哈特曼的次生词实际上就相当于汉语的“孳乳字”,而他的原生词就相当于汉语的“初文”。英语的原生词(Primary Word)和汉语的“初文”都是各自语言中最基本的意义单位,在结构上都由一个语素构成,具有不可再分性,但英汉民族在认知模式上的差异导致两者在“表意”方式上也存在着根本的对立。
2. 扩展方式:汉字“空间性”与 词“时间性”
汉语“初文”与英语的“Primary Word”两者在表意方式上以形写意与以音表意的对立,导致了汉英语汇的扩展分别走上了不同途径,即空间上的扩展和时间上的延伸。“形”是二维的空间范畴,“音”是线性的时间范畴,随着社会的发展,人类认知的进步,对“意”的区别便成了必要。“以形写意”的汉语必然会利用在空间上增加区别性符号的手段,“以音表意”的英语也不得不选择在时间上增加语音符号的方式来区别意义。于是,汉语的“初文”在空间上扩展后便形成了“指事字”、“会意字”、“形声字”、“转注字”等“孳乳字”,如:初文“刀”平面空间增加一个“丶”便扩展为指事字“刃”;“初文”到“孳乳字”只是平面空间上“形”的增加,线性时间上的“音”没有延长,还是一个音节。英语的原生词在时间上延伸后就产生了 Secondary Derivative、Compound Word、Primary Derivative 等次生词,如:动词 act[kt](行动)增加一个音素//,变为名词 actor(演员),增加两个音素/iv/,变为形容词 active(积极的)。所以我们说英语原生词是通过在线性时间上的延伸来孳乳衍生出次生词的。
3. 生成方式:汉字“描述性”与 词“规定性”
在(三)中第二点我们说到西方和中国关于语言的起源,西方语言的产生是通过亚当的随口而呼的命名开始的,汉语的产生则是起源于对事物形象有意的模仿,随口而呼是任意的无理据的,有意模仿则是有理据的可分析的,所以说汉语与西方语言在语言产生之初走的是两条全然不同的路劲:语音-任意性 VS 文字-理据性。从另一方面来说,以形写意与以音表意的对立是汉语和英语不同词汇化手段的对立,也是汉语“初文”与英语原生词在表意方式上的对立。这种对立又导致了汉英语汇在生成方式上描述性与规定性的对立。汉语初文“以形写意”,用字形去描述意义,字形与意义之间有着描述与被描述的关系,因而我们说初文的生成方式是描述性的。而英语原生词由于“以音表意”,音义的结合是任意性的,两者之间没有必然联系,其生成方式因而也只能是规定性或定义性的。例如,同样表达树上之果实,汉语的“果”像“果形在木之上”(《说文・木部》)之形,为描述性的,英语的“fruit”则与“果形”与“木”无关,用它来表达果实这一概念,完全是人为规定或定义的。
(作者单位:内蒙古大学)
参考文献:
[1]Packard, J.L. The Morphology of Chinese:A Linguistics and Cognitive Approach, Cambridge:Cambridge University Press, 2000.
[2]潘文国,《汉英语对比纲要》。北京:北京语言文化大学出版社,1997。
[3]王力,《中国语言学史》。上海:复旦大学出版社,2006。
关键词:形合 意合 思维 构词
[中图分类号]:H1[文献标识码]:A[文章编号]:1002-2139(2010)-04-0187-01
引言
语言文化的差异包括语言学。文化学,心理学,哲学等很多方面,英语和汉语两种语言不同的表达法和习惯用法的差异,可以追究到更深层次的思维方面的差异。英汉语之间最重要的区别特征莫过于意合与形合的区别。
形合和意合是语言组织方法,是从意义到具体语言形式的两个既有各自特点又不相互排斥的组词成句途径。形合(hyotaxis)指借助语言形式手段,主要包括词汇手段和形态手段实现词语或句子的衔接;意合(parataxis)指不借助于语言形式手段,而借助于词语或句子所含意义的逻辑联系来实现语篇内部连接。申小龙(1992)认为:西方民族注重形式逻辑。强调主客的分离,因此在语言上注重形合,而汉民族“天人合一”的思想强调主客体的融合统一,因而在语言上重意合。
本文试图从英汉造字构词的角度分析英汉两种不同的语言系统里所体现出来的思维差异的问题,即形合和意合的区别在词根词缀等构词方面的体现。
一、英汉词缀构成对比
英语属于一种拼音文字,英语的符号系统只包含二十六个字母,是形态语言,英语是一种体现逻辑思维能力的语言,其词缀功能主要为表义性词缀作为一种构词手段十分活跃。
英语中的词缀有两类:一类叫“派生性”;另一类叫“屈折性”。派生性词缀是一种与某个词根结合在一起时改变该词的词性或词义的粘着性语素,如后缀-ly改变词性,前缀dis-改变词义;屈折性词缀是一种既不改变词性也不改变词义,只起一种语法作用的粘着性语素,如动词的进行时态后加ing,复数名词后加-s。
英语中抽象名词多,汉语中具体名词多。英语中有一整套表达抽象思维的方式,使用大量抽象名词便是其一。英语中的抽象名词大多是通过虚化手段,即通过加词缀,尤其是后缀,从其他词类派生而来。比如,表示抽象名词:-ship hardship,leadarship,friendship,ladyship,和-hood manhood,motherhood,neighborhood,childhood。
而汉语中的名词,除了哲学上的名词之外,只能指称具体的东西,而且可以说五官所能感触的。现代汉语的一些抽象词尾大多来自外来语。英语说明性词语多,汉语形象性词语多。绝大部分英语具有说明性和功能性,极少具备形象性。而许多汉语词都具备形象性。
汉语词缀是一个严密性与开放型相互对立和统一的系统。从文字系统上看,汉语属于表意(ideographie)文字,汉字四四方方,字形与字义有很大的关联和统一。汉字,汉语词中沉淀着中华民族特有的思维方式。意合是汉字词的灵魂。汉字有四种造字法,其中“会意”和“指事”是典型的意合。比如,会意字“灾”,火在房子底下,意合为房子失火,表示“灾难”义,非常生动形象。再比如会意字“从”,由一前一后的两个“人”构成,意合为一个人跟着一个人,表示“跟从”义,同样生动贴切。象形字“日”,“月”,每个字所有笔画合起来就是该字所表达的客观实体的形状,也是一种意合。形声字的形旁也表意,比如“岗”,“岭”,“崩”都有“山”作形旁,表示它们都与“山”有关,这也是一种意合。
二、意合与形台的构调方式对比
汉语是分析型语言,不会像英语名词那样改变自身的形式变为复数,汉语动词也不会改变自身的形式表示过去,现在进行,将来,完成和被动等。中国人形象思维比较发达,英美人逻辑思维比较发达。而汉语主要依赖意义的内在衔接,形成一种隐约的意义脉络。
比较一组汉英对应的词语:牛-ox,公牛-bull,母牛-COW,小牛-caff,牛肉-beef这五对词语,汉语只有“牛”是单纯词,其余都是合成词,英语则都是单纯词。这中合成词和单纯词的区别说明了汉民族在形成这五个词所表达的概念时,只有“牛”是初始概念,其余都是用两个现成的概念作为元素合成的新概念。而英语则都是初始概念。汉民族在形成概念的过程中,既注意了事物的特性,又注意事物类属的共性和事物间的联系,而以英语为母语的民族在形成概念的过程中,则强调事物的个性和差异。
摘 要:汉字笔画繁多,形体复杂,数量庞大,信息量大,使很多外国人望而生畏,汉字障碍成为外国学生进一步学习下去的颈瓶。汉语词汇积累首先遇到的最大障碍就是汉字。汉字无法见形知音,是导致拼音文字为母语的学生学习汉字困难的主要原因之一。拼音文字为母语的学生写汉字意味着思维方式由一维的线性排列结构的认知改变到二维的方块结构符号的认知。拼音文字为母语的学生对汉字“以形别义”的区别方式本来就不敏感,更何况汉字的表义度也很低,很多汉字很难从字面上找到理解词义的阶梯。对外汉语教学界普遍有重听说、轻读写的倾向,且欧美学生听说能力优于读写能力。这些都导致汉字成为汉语作为第二语言学习的最大难点。
关键词 :汉字;最大难点;表音;表义;轻读写
中图分类号:H195.3 文献标识码:A 文章编号:1673-2596(2015)02-0177-02
汉字笔画繁多、形体复杂、信息量大,使很多外国人望而生畏,浅尝辄止,中途放弃。在国外大学的汉语学习者中,“经过十年寒窗生活以后,只剩下极少数的学生攀登硕士或博士的高峰”。这些硕、博士的毕业论文通常是用自己的母语撰写的,而不是汉语。他们的汉语口语能很流利,但在阅读、特别在书写方面仍有许多障碍,“最明显的原因是汉字的难关”[1]。在国内的对外汉语教学中,外国人学汉语人数增长迅猛,但中途流失严重。大多数留学生浅尝辄止于初级水平,难跨中级,进入高级阶段者寥寥无几。阅读能力较差、书写更加困难是留学生普遍性的现象,原因是汉字识读难,书写更难。张志公指出:“汉字不是拼音文字。学习汉语汉文,不能像欧美儿童那样,学会了二、三十个字母以后,可以一边识字,一边很快就能成句地乃至成段地阅读。学汉字,必须一个一个地认,一个一个地记;在认识一定数量的汉字之前,是无法整句、整段地阅读的。”[2]汉字障碍成为留学生进一步学习下去的颈瓶。
论文字数目,《现代汉语词典》共收了13000字以上, 《新华字典》收了8000多,《现代汉语通用字表》7000个,《现代汉语常用字表》3500个;而日文假名只有46个,俄文字母33个,英文字母仅26个,汉字显然比表音文字有更多的书写符号。原因在于表意文字与表音文字这两种根本不同的文字体系记录语言的理据不同:表意文字是依据意义构形的文字体系,字形与语音没有直接的联系;而表音文字是根据语音构形的文字体系,字形与语义没有直接的联系。任何一种语言使用的语音都是有限的,依据语音构造文字之“形”也必有限;而任何一种语言表达的“义”是无限的,依据语言的意义构造文字之“形”也必无限。所以,表音文字的书写符号数量很少而不必花大力气学习;但汉字数量庞大,加上笔画繁多、形体复杂,必须专门地花大力气学习。文字书写对于拼音文字为母语者来说就是二、三十个字母,这在儿童的幼儿园阶段就能书写成形;而汉字书写就算是中国孩子的母语学习,很多孩子也要到小学毕业才能写成型,学够量。
马庆株认为,对外汉语教学大纲规定的2905个汉字和8822个词汇大约需要3000学时,而同样单位的拼音文字的汉字与词汇,大概750学时就够了,这主要是由于汉字难学的缘故。而且,词汇量被认为是语言学习的决定因素,汉语词汇积累首先遇到的最大障碍就是汉字——难认、难记、难写,汉字的识读和词汇的积累是同步的[3]。
另外,国内外汉语教学界有一个普遍的重听说、轻读写的倾向。美国的汉语教学非常重视听说交流,而不重视汉字教学;菲律宾曾出版拼音课本,让学生成为不学汉字的文盲;丹麦某大型企业在北京语言大学的汉语培训项目曾明确要求:不开汉字课;北京语言大学曾做先听说、后读写的教学实验,遭到留学生的强烈抗议,甚至都不学汉语了……这些事实造成一种现象:外国学生汉语的听说能力与读写能力差别之大,在世界二语学习中极为少见。这和中国的英语教学恰好相反,绝大多数的中国学生英语笔试总好于口试,读写能力强于听说能力,“哑巴英语”在中国大有人在。中国人碰到口语表达不清楚的时候常常把汉字写出来,以避免同音字的误解,或可依据字形推断字义。这两种截然相反的现象定然跟两种文字体系的认知模式差异有关。神经语言学研究发现,人脑的语言功能区主要有两个:一个是前脑的“布洛卡区”,汉字的阅读主要在这个区域,布洛卡区的记忆主要靠视觉图形;另一个是后脑的“威尼克区”,拼音文字的阅读主要在这个区域,威尼克区的记忆主要靠听觉听说。威尼克区的认知惯性在学习汉字过程中也表现出来,这是欧美学生听说能力优于读写能力的原因[4]。
从思维方式上看,拼音文字的理据是语音与字形的联系,这是一种抽象思维;汉字的理据是语义与字形的联系,这是一种具象思维。拼音文字线性排列,右向延伸,单向线性排列的视读单位;汉字以方块平面组合的图形来表达意义,是音意结合的平面图形,初学汉字的外国人眼中的汉字只是一堆毫无意义的抽象符号或图画。心理学认为大脑处理两种文字的脑机制有差异:左脑负责抽象思维,右脑负责感性思维。音形联系的拼音文字由左脑加工处理;而义形联系的汉字具有极强的图形性,主要由右脑加工处理,形声字也包含语音信息, 是左右脑并用处理。拼音文字为母语的学生写汉字意味着思维方式由一维的线性排列结构的认知改变到二维的方块结构符号的认知。思维方式的转变是艰难的。
难点的关键就在于此:拼音文字是形声合一,汉字是形声脱节。总体上,汉字的字形与语音形式之间不存在类推的对应关系,仅形声字的声符有一定的表音作用。《现代汉语通用字表》7000个汉字中,声旁具有完全表音功能,本身又是使用频率高(组字数量在3个以上)的汉字仅18个,共构成96个形声字[5]。在表音方面汉字无法跟拼音文字相比。刘艳妮做了“非汉字圈学生学汉字初期遇到的困难”的调查,其困难主要表现在“见字不见音”“一字多音”上,读音方面的困难甚于书写。拼音文字为母语的学生习惯于把语音作为联系文字的纽带,而汉字的表音实在令人头痛,无法见形知音,这是导致拼音文字为母语的学生学习汉字困难的主要原因之一[6]。徐子亮研究发现,“非汉字文化圈”学生认读一个汉字往往要经历3步:音义结合——形义结合——音形结合。儿童母语是懂得音义的条件下只需记忆字形,留学生形音义都要记忆[7]。
汉字选择意义为构形的基本手段,字形只反映造字之初的语义。隶变后汉字脱离图画意味,成为更为抽象化的文字符号,是必然的、合理的。语义和语音会随着社会的发展变化而发生变化,字形却不随之发生变化。这种“不同步”的历史演变冲淡甚至破坏了汉字的构形理据,使汉字的表义度随历史演变呈现越来越降低的趋势。拼音文字为母语的学生对汉字“以形别义”的区别方式本来就不敏感,更何况汉字的表义度也很低,很多汉字很难从字面上找到理解词义的阶梯。
汉字的表音度与表义度都很低,难怪吕叔湘认为汉字有五难——难认、难写、字数多、字的形音义之间很多交叉关系复杂、难查[8]。汉字难认读表现在形声脱节,4声变化差别细微,同/近音字太多及多音多义字过多。汉字难写表现在笔画笔顺种类繁多,合体字结构复杂,构字规律不严整(例如形声字声符和形符的位置并不固定),形近字诸如“己已巳”“戊戍戎成戌”等形体差别太细微而容易导致错别字的产生,拼音文字为母语的学生对汉字“以形别义”的区别方式本来就不敏感。难查表现在汉字不见字知音影响查字典。张惠芬指出:“汉字构造复杂,符号繁多,每个汉字具有多层次的分析性和高度的综合性,信息量很大。一个汉字的信息量包括:1.语音信息。2.语义信息。3.图形整体特征信息。4.部件种类信息。5.部件组合结构信息。6.笔画种类信息。7.数量(笔画数量多少)限制信息。8.度量(笔画长短)限制信息。9.笔顺限制信息。10.部首选择信息。11.其他相关信息。”[9]
汉语难学,汉字更难学。赵元任认为,汉语语法的难度在世界的语言当中算是中等,但汉字在世界的文字当中比起来就相当难了[10]。汉语作为第二语言的学习难点列举起来有很多,难度排在第一位的,非汉字莫属。汉字是留学生尤其是使用拼音文字体系的留学生学习汉语的最大问题。如何让外国学生消除畏难情绪,更快、更多地学会汉字, 培养“字感”,突破汉字颈瓶,以便更进一步地提高汉语水平,是对外汉语教学重要却又艰难的课题。
参考文献:
〔1〕柯彼德.汉字文化和汉字教学[A].第五届国际汉语教学讨论会论文选[C].北京:北京大学出版社,1997.
〔2〕张志公.传统语文教育初探[M].上海:上海教育出版社,1962.33.
〔3〕马庆株.关于对外汉语教学的若干意见.世界汉语教学,2003,(3).
〔4〕张必隐.阅读心理学[M].北京:北京师范大学出版社,1992.
〔5〕李燕,等.现代汉语形声字声符研究[A].现代汉语用字信息分析[C].上海教育出版社,1993.
〔6〕刘艳妮.对外汉字教学研究[D].河南师范大学硕士学位论文,2005.
〔7〕徐子亮.汉语作为外语教学的认知理论研究[M].北京:华语教学出版社,2000.135.
〔8〕吕叔湘.《“注音识字,提前读写”实验报告》序[A].吕叔湘论语文教育[C].河南教育出版社,1995.
一、关于以日语作为第二外语的研究生基本情况分析
1、对于日语的初步了解和理性认知背景。选择日语为第二外语的英语专业的研究生教学对象,对日语的初步了解和理性认知一般可以归纳如下:其一,在决定选修学习日语前,没有学习过日语,对日语的假名、词汇句型都不甚了解,更不用提及对日语语法以及其语言内在规律与语言习惯有一个理性认识,即所谓“ABC”开始学习日语;其二,有过一定时间的日语学习,但仍属于比较基础之水平,仅停留在教材书本学习层面,以学习教材和聆听教师讲授为主,口语和实践能力较弱。
2、学习能力评估结果。做出选择日语学习的研究生,一般是在对日语和俄语、法语、德语等进行自我接受能力的一个较为全面理性的评估后,感觉日语的中的“汉字”等文字信息和母语――汉语有诸多的接近,认为比俄语、法语等字母文字更易理解和掌握,所以选择学习日语。
3、实用功利主义影响。由于近年来中日经济、贸易、文化等各领域相关交流不断加深,两国交往前较过去更为密切。日语虽不是联合国通用语言,但是对于中国外语学习者来说,日语却有着很强的实用性,尤其是东南沿海地区。因此,出于实用性功利主义考虑,相当一部分学生都选择日语作为第二外语,以加强自身竞争力。
二、研究生日语二外的教学与专业英语教学的比较
1、考试成绩要求较低,而且无强制通过级别要求。研究生二外日语,普遍没有强制通过级别要求,且多数测试只是简单的原型题目,分数要求一般也较低。因此研究生教学对象大多光靠教师讲授,而课下花费在日语上的自主学习时间较少,因为基本没有强制过级分数要求。个体学习动力不足,导致学习时间、学习原动力都无法和英语相比。这是目前研究生教学对象的客观现状,也是教师和外语教育研究者亟待解决的问题之一。
2、教师课上讲授时间与英语比较,也相对较少。研究生二外日语的课程安排仅仅为十二个月甚至六个月,如此之短的时间内,要实现包括阅读与写作、听力与会话的全方位能力提升,绝非易事。如果要用六个月,即24周(最高周学时6节)学习一门外语,显然是相对较快。所以,以研究生为对象的二外日语教学,有必要运用科学现今的教学理念和教学方法,制定合理的教学计划。
3、极为有限的文献和媒介资讯。与专业英语的大量文献资料和媒介资讯的教学相比,日语的相关教学资料和其他媒介资讯等略显单薄。故而,与英语相比,研究生自主学习,和课下通过多媒体查找相关文字,视频、音频资料都相对受限,故而造成了对授课教师的教学讲授和教材依赖性极大。
三、研究生日语二外的教学原则与方法
1、引导教学对象建立基本观念,认清日语与汉语之差异,以正确踏实循序渐进的方式学习日语。[1]分清日语文字信息和汉语文字信息的异同。日语受中国古汉语的影响比较深,自从遣隋使遣唐使将汉字带回日本后,日语中一直存在并使用着汉字,这对于中国的日语学习者,尤其是初学者来说,貌似提供了一个入门捷径,实则不然:日语中的汉字同汉语的汉字相比,很多是同形不同意,或形似意不同。因此日语学习中,学生应该建立正确的学习观点,排除“走捷径”的观念,引导学生建立正确的日语汉字以及其他与汉语相关的文字信息的学习观念,尤为重要。对一些零起点的日语学生,在开始接触日语词汇时,就行引导其建立独立的日语文字信息之学习和记忆观念,此观念应独立于汉语之影响,并启发学生对日语文字信息和汉语文字信息之差异建立一个总体观念,加深其对该问题之理性认识。我认为在教学别应该注意这样几种情况:比如上述提到之“同形不同意”的情况,在日语里广泛存在:例如“丈夫”一词,在日语中并无男性婚姻配偶之意,而是结实的意思。此类词其实在日语中屡见不鲜,初学者容易望文生义,或断章取义,对其学习造成干扰。教师应根据教学对象的实际情况引导并督促改正。另外日语中很多汉字的写法也与汉语有细微的区别,比如汉语中“齿”在日语中的汉字为“”、还有一些日语汉字,如“、”等,在汉语中根本不存在,仅在日语中存在并使用,这些都需要教师对教学对象加以强调说明,使其建立基本日语文字信息学习观念,排除母语――汉语对日语学习之干扰。[2]辨别区分汉语英语日语因所属语系不同而产生之差异。汉语属于汉藏语系,为孤立语,即每个语言单位可独立表述较为完整的含义;英语属印欧语系 ,为屈折语,靠词尾屈折变化来体现次在句子中的含义与功用;而日语属阿尔泰语系,为黏着语,是靠实词与助词的成分黏着来体现其语言含义的。因此,在教学中,必须有所侧重,让教学对象在了解差异的同时,有所侧重的学习日语中的各个助词。而不是将汉语尤其是英语的语言习惯完全带入日语中。
2、利用现有之所有教学手段,注意搜集课外相关对教学有帮助的资料和其他媒介资讯,尽一切可能帮助学生提高听说能力,培养口语习惯,熟悉口语表达,以提高学生的口语应用水平。在具体教学实践中,要培养学生注意日语独特的语言习惯,尤其是其靠助词来体现并区别语义的语言特点。
[中图分类号] H195 [文献标识码] A 文章编号:1671-0037(2014)01-78-2
1 前言
河南省有一亿多人,是中国人口最多的省份,因此河南话是中国使用人数最多的方言之一。
河南话属于北方方言,与普通话比较接近。有研究指出:河南话与普通话的发音主要是声调不同,而且有规律可循,即普通话的一(平)、二(上)、三(去)、四(入)声读做二(上)、四(入)、一(平)、三(去)声,就是河南话,见表1。
但是据我研究,普通话与河南话的差距不仅仅在音调上,河南话在很多字的声母发音上还与普通话不同。特别是一些以j、q、x为声母的汉字读音会由舌面音变为舌尖音,而这些读音是用汉语拼音无法标出的。象词语“积极”两个字汉语拼音同为“ji”,但两者声母发音不同,“积”为舌尖音,“极”为舌面音。“漆器”,汉语拼音同为“qi”,但两者声母发音不同,“漆”为舌尖音,“器”为舌面音。“嬉戏”,汉语拼音同为“xi”,但两者声母发音不同,“嬉”为舌尖音,“戏”为舌面音。
我们从几个示例中可以看看发音的差别:
例一、《校园初秋》
初秋七月兰蕉鲜,清新菊香泻校园。
积极进取勤学习,齐心协力且向前。
此诗中有共有21个字的声母为j、q、x,其中只有“菊、香、校、极、勤、协”六个字的声母发音同普通话,为舌面音;而“秋、七、蕉、鲜、清、新、泻、积、进、取、习、齐、心、且、前”15个字在河南话中读作舌尖音。
例二、《熙戏犀》
西溪犀,喜嬉戏。席熙夕夕携犀徙,席熙细细习洗犀。犀吸溪,戏袭熙。席熙嘻嘻希息戏。惜犀嘶嘶喜袭熙。
这篇文章是中国现代语言和现代音乐学先驱赵元任先生所作,全篇古文汉字声母都是“x”,但用河南话读,则有两个读音。其中“溪”、“喜”、“戏”、“吸”、“希”读作舌面音“xi”;而“西”、“犀”、“嬉”、“席”、“熙”、“夕”、“徙”、“细”、“习”、“洗”、“袭”、“息”等在河南话中则是读为舌尖音。
例三、《唧唧鸡》
唧唧鸡,鸡唧唧,几鸡挤挤集机脊。机极疾,鸡饥极,鸡冀己技击及鲫。机既济蓟畿,鸡计疾机激几鲫。机疾极,鲫极悸,急急挤集矶级际。继即鲫迹极寂寂,继即几鸡既饥即唧唧。
这篇文章同样是国学大师赵元任先生所作,全篇古文汉字拼音都是“ji”,用普通话读是一个音,但用河南话读,则有两个读音。其中“鸡、几、机、极、饥、冀、己、技、击、及、蓟、畿、计、激、悸、急、矶、级”的声母读音同普通话,为舌面音;而“唧、挤、集、脊、疾、鲫、既、济、挤、际、继、即、迹、寂”的声母在河南话中则是读为舌尖音。
从以上例子可以看出,在河南话中声母为“j、q、x”的读作舌尖音的字有很多。那么,这些字究竟有多少?这些字的发音特点是什么?既然汉语拼音无法标出其发音,能否用国际音标来准确标记?这种发音方法有没有可取之处?本文将尝试进行研究和探讨。
2 对以“j、q、x”为声母的汉字的统计分析
经过统计,以j、q、x为声母的常用汉字共有881个,其中在河南话中读舌尖音的有267个,约占30.3%。
2.1 对以“j”为声母的汉字的统计分析
经过统计,以“j”为声母的常用汉字共有331个,其中在河南话中读舌尖音的有85个,约占25.7%。见表2:
2.2 对以“q”为声母的汉字的统计分析
经过统计,以“q”为声母的常用汉字共有233个。其中,在河南话中读舌尖音的有54个,约占23.2%。见表3:
2.3 对以“x”为声母的汉字的统计分析
经过统计,以“x”为声母的常用汉字共有318个。其中,在河南话中读舌尖音的有128个,约占40.3%。见表4:
3 对以“j、q、x”为声母的汉字在河南话中的发声方式研究
在汉语拼音中,舌尖音有d、t、n、l、z、c、s。在河南话中,如何将“j、q、x”为声母的汉字发为舌尖音呢?与d、t、n、l、z、c、s有什么不同呢?
3.1 发音部位研究
经过总结,“积”、“七”、“西”等一部分以j、q、x为声母的汉字在河南话中的发音方法类似于舌尖前音z、c、s,发生时舌尖都会发出强烈的震动。不过二者发声方法还是存在明显的区别的。z、c、s的发声方法是舌尖和上齿背形成阻碍,舌尖抵住下齿背。而j、q、x在河南中发声方法是上齿和下齿稍抵舌尖,舌尖与上齿和下齿间未完全咬住,而是有一道缝隙。其中j、q的发声和舌面音的发声方法有所区别,方法是将舌面前部和上齿根部形成阻碍而不是与硬腭中部形成阻碍,因此将j、q的发音定义为舌尖齿舌面前音;而x的发声不用到舌面,因此将x的发声定义为舌尖齿音。
3.2 发音方法研究
河南方言中j、q发音过程,起始时,上齿与下齿咬住舌尖,使上齿、下齿、舌尖三个发声部分完全闭合,阻住气流,然后逐渐放开,上齿、下齿分别与舌尖形成一条细缝,气流从缝隙中流出。舌面前与上齿根由完全闭合到逐渐松开,因此,j、q的发声类似于普通话中的塞擦音。x的发音则是上下齿与舌尖的靠近,舌面前与上齿根逐渐靠近,因此类似于普通话中的塞音。
总之,河南方言中j、q、x的发声蕴含两个关键点:一是区别普通话中j、q、x的发声,即是舌面前部与哪个部位形成阻碍;二是区别普通话中,z、c、s的发声方法,即是在发声过程中舌与齿的关系。
4 发音音标标注研究
经研究,在河南方言中,j的舌尖音读音是普通话中z和j的“合体”,q的舌尖音读音是普通话中c和q的合体,x的舌尖音读音是普通话中s和x的合体。那些以“j、q、x”为声母却在河南话中读作舌尖音的汉字无法用汉语拼音准确标记。那么,能否以国际音标来标记读音呢?
同英语发音比较,河南话中“x”读舌尖音时可以找到对应的发音,用国际音标读为[θ]。如河南话中汉字“习”的发音和英文单词“see”的发音一模一样,用国际音标读为[θi:];“心”的发音和英文单词“thin”的相似,用国际音标标记为[θin:],只是声调是二声(上声)。但是同英语发音比较,河南话中“j、q”读舌尖音时找不到对应的发音。但可以用国际音标标出,j为[ts?]、q为[ts?']。
通过这种方法的归纳和总结,能得出河南方言中辅音声母j、q、x的国际音标方案注音方法,即:j[ts?]、q[ts?']、x[θ],表5如下:
5 研究创新点及意义
本文对以j、q、x为声母但在河南话中读作舌尖音的汉字进行了较为全面的研究,从生理结构上对其发声部位、发声方法进行了分析。本文在国内首次详细统计了以j、q、x为声母但在河南话中读作舌尖音的汉字;创造性的重新定义了j、q、x两种发声方法,即舌尖齿舌面前音与舌尖齿音;并标注了其国际音标。
本研究准确标记了河南方言中发音最具有特色的发音,对于保护河南方言、保护民族文化有很深远的意义。方言传承者一个国家、一个地域的历史和文化,是文化多样性的体现,应当将方言纳入非物质文化遗产进行保护。
6 展望和建议
本研究发现,那些以“j、q、x”为声母的汉字读作舌尖音时很具美感、很动听,使得汉语的表述更加清楚,减少了歧义。因此建议在普通话中采用这种发音,丰富完善汉语拼音的发音体系。
一般的拼音语言,只有元音与辅音两个结构要素,声调(升调、降调)只区别语气,不区别意义,因而不是拼音语言的结构要素。而汉语则不同,声调起着区别意义的作用,故汉语语音由声母、韵母、声调三个要素构成。如果我们把英语等拼音语言称为二维结构,那么汉语语音就是三维结构。
人类的发音器官能够发出各种各样不同的音。就语音单位而言,几乎具有无限的可能性,或者起码是一个庞大的数字,但每一个民族用于社会交际的能够区别意义的音位却少得多,这是根据人类的交流需要而决定的。人类语言只需要不多的音位,就可以构成无数有意义的话语。
从历史发展来说,“能指”和“所指”在约定俗成的任意性这一表层现象的深处,有着相当深刻的内在联系。这种联系受到各民族物质生产发展的一般水平和语言发展水平的双重制约。就人类语言的发源处来说,初民不可能也无须选择很多的音节来表达一些简单的概念。但是,随着生产实践和社会生活的发展,有许多新的概念需要表达,原先的音节不能满足需要,他们必须寻觅新的途径。增加音节是一个最简单的有效途径,西方的一些语言就走了这一道路。英语中的音节就有一万多个。但也还有另外一个聪明的方法,即在原有的音节上标出不同的声调,以此代表不同的概念,这同样可以起到与增加音节相等的作用。汉语就走了这一条道路,它只选择了400多个基本音节就能够满足高度文明的汉民族的各种概念表达的需要。采取增加音节的线性展开的方式和运用声调向中心聚敛的三维方式来解决语音的发展问题具有同等的有效性。于是,汉语与西方拼音语言的根本性区别(即拼音语言是用二维——元音和辅音——来表达的,而汉语是用三维——声母、韵母和声调——来表达)就形成了。当然这两条道路也不是绝对的互不相涉,而是起着部分的互补作用。汉语在发展中,由单音节词为主到双音节词为主,且近代以来,由于文化交流的增多,外来语的翻译常用多音节词来表达,这使汉语的词汇中多音节词的比例也有所扩大。拼音语言也有不用增加音节而只是改变词的重读音节的方式来区别意义,这又与汉语所走的道路有若干类似之处。文化创造提供了无限的可能性,每一种可能性只要是能够逐渐精微地表达人类的思维,就具有同等价值,这里没有好坏高下之分。人为地将“屈折语”说成是最高级,将“孤立语”说成最低级,这要么是文化中心主义、种族偏见的自我欣赏和自我陶醉,要么就是民族虚无主义的自卑心理的表现,而不是科学的分析。
文字领域的情况与语音领域的情况相似。
在文字的起源阶段,用“象形”表达人类思想与语言中用“象声”表达人类思想类似,同样舍弃了许多东西,仅从客观事物中抽出一些主要的特征写画下来。“米”是一棵果树上结了许多果子的象形。但作为自然界的一种有机生命体,一棵树是多么繁复的植物,结下的丰硕的果实也决不止三个。当我们用象形文字表达它的时候,失落了不计其数的果实了,而且用3个小圆圈代替了具有万千特征的甜美的果实,又不知失落了多少属性了。我们甚至不能说,我们所造的那个象形字就一定是抓住了果树的形象的主要特征,其实它仅是从客观物象中抽象出的极少一部分特征。这才是本色意义上的“抽象”。我们现在经常挂在嘴上的所谓“抽象”,比如说小篆是汉字第一次规范化的字体,它字形固定,偏旁统一,这对于象形特点鲜明的甲骨文来说是一次抽象,而用点、横、竖、撇、捺等笔画转写篆书所发生的使汉字变成纯粹符号性质的“隶变”又是更进一步的抽象,这些“抽象”,与文字最初形成阶段的那次抽象相比,实在是小巫见大巫了。与语音的形成一样,象形文字是各个民族根据不同的要求抽象出事物的极少特征写画下来,这使各种文字产生差距。中西文字目前巨大的差距是由各自不同的文化创造方法造成的。当美索不达米亚的字母被发现后,西方文字突然掉转头去走了一条拼音化的道路,而汉字则没有走这条道路,依然按照原来的路径发展着。于是,中西文字便相去遥远了。“中国自殷商通用至今的表意方块字,与发源于美索不达米亚,后来流行于世界大多数地区的拼音文字其渊源和特性都迥然相异,成为世界文化史上独成一统的特例。”[③]
方块汉字与拼音文字在结构上的区别,我们认为也是“二维”与“三维”的区别。从汉语语音角度提出来的问题是与汉字的特点相吻合的。汉字的三维性使其具有立体性特点。但要证明汉字是三维的立体性结构,我们的面前有一道“定论”的铜墙铁壁,一般认为,拼音文字记录一个词是用一串字母作线性的排列,在汉字往往用一个平面型方块来表示,所以“汉字是平面型文字”[④]。诚然,汉字是写在纸上的,不是雕塑在空间的,何以认为汉字是三维的因而具有立体性特点呢?这是因为汉字是用二维去展示、象征三维空间的,我们是就其所表达、所象征的意义上来说它是“三维”的。“立体派”的绘画何以能称“立体”呢?难道就不是画在平面画布上的吗?
汉字主要起源于原始图画,而图画是用二维空间来表示三维空前的,那么,汉字就其起源阶段的象形性而言,亦具有这样的特征。汉字起源阶段的这种象形的特性是汉字三维性发生学上的依据,图画的形象性的特点是使人们可以直观或感受到所画事物“体”的质感。例如,属于仰韶文化庙底沟类型陕西华县柳子镇出土的陶器上。
即使是最逼真的工笔也不能将客观事物的全部属性和特征描绘出来,它在描绘中已经遗漏了许多属性和特征,因而,从某种意义上说,图画反映客观事物也是“抽象”的。而汉字又是对象形图画的再一次“抽象”,这就使文字成为一种纯粹的符号了。这种符号只要没有变成音响形象的附属物(如拼音文字那样),这种三维立体性特点便没有被打破,无论其抽象程度怎样地越来越高。
从现实生活的客观事物中抽象出来的以象形为基础的文字,在其后来的发展变形过程中,并未改变其三维立体性特点,这是由于汉字后来无论怎样变形,皆未彻底打破原有的符号体系去另辟新路。先看小篆。小篆是汉字第一次规范化的字体。比起甲骨文和金文来,小篆字体固定,并将原来没有固定形式的各种偏旁统一起来,小篆的线条不再是去描画客观事物,而是变成了规则匀称的带弧形的整齐线条,就此而言,对汉字的立体性的冲击是大的。但是,从根本上看,小篆并未改变汉字的结构特点,而仅在原来的基础上进一步抽象,只是线条略略变化,使文字同客观事物的联系更加隐蔽了一些。这样的特征实在太多,无庸赘述。隶书的情况又怎样呢?用点、横、竖、撇、捺等笔画转写篆书,这是被称作“隶变”的汉文字史上的一场大变革,这场变革是古文字和今文字的分水岭。从甲骨文到小篆,汉字线条的主要特点在于描摹客观事物,因而它是画出来的;而隶变后的五种基本笔画则是写出来的。由于隶变改变了笔画的形态,因而使汉字形体发生了大的变化,变成纯粹符号性质的文字,基本摆脱了古汉字的图形意味。后来,魏晋至隋唐出现的楷书,结构与隶书基本相同,点、横、竖、撇、捺等笔画进一步发展,从此,汉字成为方块字就定型了。但是,隶变以后的汉字并未改变汉字的三维立体性特点。我们还是以“为”字后来变化为例来说明。
这些形式亦分别积淀了大象的鼻子、躯体以及四条腿的内容。由此看来,隶变中的汉字形体的改变仅是汉字结构内部进行自身调整时的一种较大的形态转移,而不是汉字整体结构的打破与重建,因而汉字立体性这一基本特点并未失落。
我们认为汉字在其发展的历史长河中,其立体性特点一直保持着,但同时我们又认为隶变前后汉字立体性的特点又有着不尽相同的内涵。适应于描摹客观事物的各种形态、方向、长短、曲直的甲金文和小篆的线条,一变为适应于书写的、长短大致统一、曲直有规则、形态方向一致的隶书、楷书和现代简体的线条,这说明隶变使汉字从图画意义上的立体性变成了几何意义的立体性。隶变前的汉字通过用极简约的线条描画事物达到立体性,这种立体性因与图画类似,较易为人们认识,隶变以后的汉字实在有类于“立体派”的绘画。它将对象世界引归到立体几何的方块形体中去,呈现出一种多视点把立体平铺到平面上的倾向。即“对一个物体作分解,同时从不同的方面,不只是从一个视点,提供了许多元素,把这些元素重新组合,相互叠置,相互渗入成为一个整体形象,这使得平面自身直接显现立体感,却又不是取消了平面,使它成为一个空间盛器,让各种东西在它里面装着”。[⑥]隶变后汉字不仅有“横”“竖”两种笔画(这可以在垂直状态下构成平面),而且斜线(撇、捺)和点,斜线其实就是线条的水平放置状态,它与“横”、“竖”垂直状态所构成的平面相交,便构成立体图形。“点”的意义亦如此,它其实在透视意义上是远处的一条线或一个面;本身已造成了一种距离感和空间感,只要我们眼前出现了相交或平行直线构成的平面,那么远处的那个点就一定不可能与这个平面处在同一平面上,而只能是处在立体的空间中。汉字的三维立体性就这样通过五种笔划构成了。这里,“关键是在于保持着具体的平面,而同时在象征的意味里,使它成为体积的空间意味的。”[⑦]
关于汉字的三维立体性,我们还可以从中国古代的书法理论中找到证明。卫夫人《笔阵图》对汉字的几种笔划有如下的说法:
这虽是一种比喻和象征,但是我们不难看出中国古代书家的潜意味深处是将汉字的笔画当作某种客观事物来看待的。这实际上是一种原始观念的积淀,因为在原始人那里是没有比喻可言的。进一步讲,中国书法理论中所讲的关于笔画分布的结体理论更是汉字的立体性特点决定的。“中宫”和“重心”的理论,都是解决立体性字体结构稳定问题;“布白”理论则直接导源于文字的立体性:例如笔划的“疏密得宜”是解决立体性众多平面交叉的问题;“虚实相间”的说法是处理立体结构中视觉看得见和看不见的关系问题;而所谓“争让得势”则又是回答立体结构中的主要平面与次要平面的表现关系等等。中国书法最忌平板,例如“馬”字下面的四点,楷书一般将第一、四两点写得较大,二、三两点写得较小,以示远近关系。这些,皆可说明汉字的立体性特点。
我们论定汉字不同于拼音文字的三维立体性特点,这就为认识汉字的科学价值打下了基础;而汉字的生命力正建立在这种科学价值的前提之上的。
汉字的立体性特点决定了汉字具有容量大、信息多、内涵丰富的科学价值。我们仍然用数学的方法来说明。举一个最简单的例子,一横一竖和一条斜线(—|/),如果按拼音文字的线性排列,只有六种排列形式:—|/,—/|,|—/,|—/,/—|,/|—,但是,按立体性文字排列,其形式却极多。横竖构成平面,而斜线当它放到立体性图形中去的时候,位置可以相接、也可以相交,还可以相离。人们只需要从这极多的可能排列中选择出目视区别较为明晰的排列用于造字就足够表达人类各种各样的概念。这从科学角度证明了汉字的方块结构是完全胜任表达人类的千差万别的细微变化的概念。它也不见得就显得繁复,因为它不需要用向外扩展的方式去表达,而只需在这个立体结构框架的内部就可以表达。如果说一个方块汉字因笔画多而显得繁复,那么,一个英文词用一大串字母排成一条线同样也是繁复的。汉字的这个特点也是中国语言文字(尤其是文言)无形态变化,无时态变化,无冠词的最根本性的决定原因。进而使中国语言文字比印欧语言“更易于打破逻辑和语法的束缚,从而也就更易于张大语词的多义性、表达的隐喻性、意义的增生性,以及理解和阐释的多重可能性。”[⑧]这正是在二十世纪语言学革命以后重新认识语言生命力的一把金钥匙。一些有眼光的西方学者已经认识到汉字和汉语的生命力,而另一些西方学者例如伊斯特林,认为汉字终究是一种有缺陷的文字,是文字发展低级阶段上的文字,进而认为汉字是缺乏生命力的文字,这实在是一种对语言文字表达人类思维的特点缺乏全面认识所致。
注释:
①伊斯特林:《文字的产生与发展》,北京大学出版社,1987年版,第571页。
②高明:《中国古文字学通论》,文物出版社,1987年版,第49页。
③冯天瑜、何晓明、周积明:《中华文化史》,上海人民出版社,1990年版,第84页。
④胡裕树:《现代汉语》,上海教育出版社,1987年版,第188页。
⑤皮亚杰:《结构主义》,商务印书馆,1984年版,第19页。
一、中文信息处理的特点
1.汉字的特殊性
我们都知道,英语在计算机信息处理方面的优势就是其字母数量有限,因而可以很容易的进行输入输出以及信息的加工和处理,而中文的汉字则数量庞大,且字形相对复杂,这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码,总结来说有以下几种方案,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。
2.书面汉语的特殊性
汉语的另一个特征是在书面表达中,词语和记号之间没有明显的分隔标记,这就使自动分词在书面汉语分析中成立一个难题。分词需要将连续的字按照一定的规范进行有序的组合,比较英文我们会发现,英文单词之间都是用空格来做分隔符,而中文则是习惯通过字、整句以及段落进行简单的划分,而这其中的一个难点就是对词语的划分,我们都知道,英语中也有短语划分的问题,但是由于中文的词语远比英语的数量和范围要庞大,因而处理起来更为困难。
3.汉语语音的特殊性
在语音方面,汉语的特征是音节结构相对简单,音节划分界限比较清晰,但是声调和变调是中文与英文的显著区别,因而在语音识别和语音合成方面来讲这是一个劣势,但是总体上来说汉语语音的处理比之其他方面来说还是相对容易的。
4.汉语语法的特殊性
在语法方面,汉语词汇的句法功能相对来说难以判断,这与英语语言上的多变形态有着截然不同的表现。汉语主要依靠词序和虚词来表达不同的含义,因此如果不能很好的掌握句法,就特别容易产生歧义,因此汉语语句自动分析这一重要技术是一项难以攻克的技术。
二、中文信息处理的若干技术
1.N元模型
设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就 是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2。。。wn,则统计语言模型就是该 词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。 P(wn|w1 w2。。。wn-1)不难看出,为了预测词w n的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任 意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri- gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1) 转贴于 中国论文下载中
符号∏i i=3,…,n P(…)表示概率的连乘。一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有P(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。
2.语音识别
语音识别的最终目标是使人类与计算机之间实现真正意义上的自由交流,使机器听懂人类的语言,并及时的做出准确的反馈。语音识别技术包括了信号处理、模式 识别、概率论和信息论、发声机原理和听觉原理、人工智能等主要内容。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及 到语音识别单元的选取,在这个问题上我们通常采用的是以音节为识别单元。另外,在特征参数的提取技术方面,由于语音符号中含有大量的信息,它们通常被称为 声学特征。特征参数是决定语音识别质量的关键技术,因此我们应该极可能的采集所要传播语言的语义信息,剔除掉说话人的个人信息干扰,这样才能保证特征参数 的有效性和准确性。
3.句法分析
句法分析是以汉语的语法特征为分析方法,对句子、段落中的短语结构树进行各个句子成分 关系的分析,分析的主要内容包括:句子中所有的单句,每个单句在句法中的作用是什么,在单句以上更大的语法结构是什么,句子中的短语或词组类型是什么,在 句子中起了什么作用,最后,所有这些成分是如何有机组合或附着在整个句子中的,这些就是句法结构分析的主要内容,这叫做线图分析法。值得说明的是,英语语言结构中主语必须置于谓语之前,否则所表达的意思就完全变化了,当然,在一些特定情况下,如倒装句结构中这种情况还是普遍存在的。这一点是与汉语有着显著的区别的。
三、结语
中文信息处理技术有着重要的意义,它是语言学与信息技术的有机融合,旨在对中文的音、形、义等输入计算机,进而进行必要的信息加工与处理,在这一过程中涉及到了计算机科学、信息学、声学等大量学科的交叉知识。具体来说,语言信息处理是将自然语 言的各个部分,包括词语、句子、段落以至篇章进行文本、声音和图像各种方式的信息化加工,然后对这些信息进行输入输出、压缩、存储以及检索等等各项处理。 我们都知道,自然语言是我们日常最重要的交流沟通工具,是人类进行思维活动、文化传播的有效载体,因此语言信息处理这种技术有着重要的意义,本文专门分析 了利用计算机处理中文信息,即汉语信息处理技术,希望本文能够对同行们有所启示,还望能够多多交流学习,更好的完善这项技术。
很多懂点日语的人或许都有这样的经历:稍微说了句「いいお天ですね(今天天气不错啊)之类的,或者和日本人打了个招呼,就会受到对方的赞美:「日本が上手ですね(您日语说得不错啊)。很多情况下,这种恭维本是出于好意却适得其反。因为人家才说了片言只字,你就赶紧奉上赞叹,这不是低估了别人的语言学习能力吗?或者就是过于夸大了日语学习的难度。
我们很多人从学生时代起就开始学习英语和汉语,我们不是语言专家,但必须承认,在教授与学习某种语言时确实存在一些窍门。通过阐明那些看似困难却“易于理解的”窍门会使得语言学习变得更加有趣。如果明白某种语言的总体特点学起来就会容易很多。相对来说,日语其实并不难学。下面就让我们一起来看看它的特点吧。
先说语音。
日语的基础是五十音图,翻开任何一本初级教材,最先看到的学习内容就是五十音图。这个图表用假名和英文字母给出了日语中使用的46个音节。英语单词由英文字母表中的字母排列而成,日语则由假名排列而成。五十音图就是所有的假名,假名是音节文字,每个假名都由一个元音或辅音+元音组合而成。日语里只有5个元音:あ(a)、い(i)、う(u)、え(e)、お(o)。元音和辅音结合时通常放在后面,只有假名ん(n)是个例外。五十音图的横行叫做“ア(a)”行,“カ(ka)”行,“サ(sa)”行,诸如此类。每一行又分为5段:“ア”段,“イ”段,“ウ”段,“エ”段,“オ”段,十分简单、明了、整齐的表格。
还有浊音表和拗音表,另外,为了接近外语如英语的发音,增加了像“ディ”和“ファ”这样的假名组合(如“ディ―リング(dealing)”和“ファイト(fight)”)。看起来似乎很多,但它们都是前表中某些假名的结合,所有的假名都可以在五十音图表中找到,并不需要学习新假名。这就是所有日语的发音。
日语语音有如此严格、清晰、简单的规则,所以拼写也很简单。假名“あ”和语音“a”完全一致。不管它单独使用还是组合使用(如あめ(ame雨)、あさ(asa早上))读法仍旧是a。只有两个例外“は”(作助词读ha或wa)和“へ”(作助词读e或he)。相比之下,英语的字母与其发音就很不一样。英文字母a有很多读音,如apple,already,any,apartment和age中的a各有不同的读音,所以是无法读出一个字母的。汉语中汉字通常只有一种读音,记住字的发音就能读词和句子,但是要记住所有的汉字是很困难的。汉语拼音对拼读汉字很有帮助(如朝chao),但只是辅助工具。而日语里最奇妙的就是文字和语音的结合。
因此,只要记住假名的发音然后挨个读出每个字的假名,你就能够念出任何词和句子。同样,当你听到一个陌生的词时,可以通过读音从字典中很容易就找到该词的含义,因为字典是按照五十音图来查词的。
再说表记方法。
日语的标记体系兼有表意文字(汉字)、音节文字(假名)、音位文字(字母)。假名和字母不难掌握,汉字对于中国人来说至少也不用像西方人那样“照葫芦画瓢”了。日语汉字很多都有多个读音,要在短时间内掌握绝非易事。不过,可以先不纠缠于汉字学习。因为只用假名也完全能跟日本人交流。
但是书籍、报纸以及路标都使用了汉字,所以学习一些汉字也很有必要。实际上也不用学过多的汉字。日本政府1981年颁布的“常用汉字表”收字1945个。据统计,掌握其中重要的1000字就可以理解90%的阅读内容。还可以暂仅学习汉字的含义。这意味着什么呢?比方说,英语里你也能明白一个词的意思,却并不能准确读出来。汉字也一样,就是说,能正确地读出和理解其含义可以暂时分离。
仅从理解词义的角度来看,由于日语汉字来源于中国,所以同一个词汉字比英语更好理解也更容易记忆。如:one(一)、two(二)、three(三),山(mountain)、川(river)、心(heart)之类的词汇非常容易记忆。剩下的就是靠积累来记住他们的日语发音了。
总的来说,在尽量避免产生一些望文生义的失误之外,我们应该比西方人有更多的优势。
最后来看看语法及使用上的特点。
日语属黏着语,依靠助词黏着在词的后面,使它成为句子成分并表明其在句中的语法功能。而助动词在句末起到句子谓语的作用。所以,如果掌握了助词和助动词的这种穿针引线的作用,就可以顺畅地完成表达。另外,谓语总是放在最后,其他词则可以灵活放置。
在英语和汉语中,主语出现在句首,后跟动词,然后是宾语。也就是说重要的部分最先出现,随后是跟主语关系最密切的宾语。相比之下,有时候日语听起来就有些费解,如果不把一句话看完听完的话,你就不知道到底是肯定、否定还是疑问。这时你会想说“到底想讲什么?快说出来!”。这是因为日语的句式是最重要的句子成分(动词)“最后出现”(有时甚至省略)。
如:私は日七に朝食をとります”(I have breakfast at seven o'clock every day.|我每天七点钟吃早饭。)
这个句子只要满足动词在最后,其余的成分则可以任意安排次序。所以可以有:
わたしは日七に朝食をとります。
七にわたしは日朝食をとります。
朝食を七にわたしは日とります。
……
按照排列组合计算可以有24种表达方法。可以认为,动词前面的词和句首的词是被强调的部分。句子的末尾――动词就像船的锚,把整个句子固定着,其他的词就像海浪中的船只一样任意移动。
类似于英语,日语的动词、形容词、形容动词根据不同的表达需要,也会有不同的词尾变化,日语把这种现象称为“活用”,这种活用取决于他们后续的助词以及助动词的种类。不过,在时间概念上,日语不像英语那样严密准确,没有精确的将来时、现在时、现在(过去)进行时、现在(过去)完成时,也不受性、数、格的影响。
例如:“私は手をく(I write a letter.|我写信)”是现在时,“明日私は手をく”(I will write a letter tomorrow.|我明天写信)是将来时。“私は手をいた(I have written a letter.I wrote a letter.I had written a letter|我写了信)”。
可以看出,英语的时间描述最准确清楚。日语、汉语中的现在时和将来时都没有区别,谓语动词都是“く(写)”,“明日(明天)”暗示行为在将来发生。
日语说“彼が本を持っているといた(我听说他有书)”。有些事情其实并不确定,比如他到底有多少书?在英语中”I heard that he had...”之后你必须说”a book”或者”books”。一般情况下我们在需要的时候才精确表达。如果你确实知道他有多少本书并且需要该信息的话,就会说“私は彼が本を三持っているといた”(我听说他有三本书。)
在英语和汉语中主语是重要的,需要说清楚“谁做的”,这样可以明确责任。而日语经常忽略主语。如果你要用日语说“Do you go?(你去吗?)”,你不必说“あなたは行きますか?”最好只说“行きますか?”。表示“Shall I open the window?(我把窗户打开吧?)”你应该说“をけましょうか?”而不是“私はをけましょうか?”在这里加上主语反倒听起来很奇怪。
“安らぎに眠ってください、ちはり返しませぬから(安息吧,因为同样的错误不会被重复了。)”这是广岛原子弹爆炸纪念馆纪念碑上的铭文。这个句子没有主语,它没有清楚地确定谁不允许悲剧重演。美国军队投掷的炸弹,可时至今日他们还断言那样做是对的。由此看来,这很明显是日本人的决定,那为什么不明确的表达出来呢?英语的翻译可能是这样开始的“We Japanese...”。
日本人信仰万物有灵论,他们不太有客观事物会根据个人意志而转移的世界观,因此不愿意强烈的表达个人意志。因此日语里主语就不是很重要。也难怪会有人认为日语是一种模糊、责任不明晰的语言。然而,如果你把原子弹纪念馆中的铭文当作是日本人的愿望,这句话里的信息就只能被直接限定在日本人身上。如今越来越多的国家,甚至发展中国家也拥有核能力。当你想要表达全世界人民都反对核武器的愿望时,最好不使用主语。由于看起来责任不明确,日语有时候可能会有些危险,但在表达期望或者不特指的愿望时却很精妙。
日语有敬体和简体的语体之分,又有不少敬语,这确实较难。就拿人称代词来看就很烦人。仅第一人称代词就有:わたし、わたくし、俺、ぼく、わし和我が。第二人称代词也有あなた、きみ和おまえ。英语里只用“I”,中文里只需要说“我”。日本人习惯于对不同的谈话对象进行区别:上级、下级、朋友、陌生人等等,他们根据特定的讲话环境和谈话人之间的关系来选择最合适的代词。
这源于日本是一个岛国,日本人习惯于把人与人之间的关系和等级明白地确立下来,然后建立起一种社会关系等级体系的通讯录,再根据场合等的不同使用不同的用语。然而,如今日本人与人之间的关系变化很大,与外国人的交流也越来越普遍。慢慢的当谈话者之间处于一种大体平等的社会基础时,似乎也就没有必要再区分那种社会差异了。因为根据说话对象改变讲话方式是不公平的。换句话说,要根据以前记录的“社会关系本”从而选择说话方式,逐渐的会让人觉得难以忍受。现在在公共场合能够听到的代词大多是“わたし”和“あなた”。所以对于外国学生来说学会使用“わたし”和“あなた”差不多就够了。
实际上很多日本人也不能很好地使用敬语,而且他们也开始意识到过分的使用敬语会使话听起来不自然。现在几乎没有人在コヒ(咖啡)等的词前面加敬语前缀“お”了。不用“おきくださる”、“おきになる”、“おきする”,用“きます”、“かれる”或“いてくださる”就足够礼貌的了。
还有性别用语。过去,人们认为妇女应该温柔可亲、礼貌高雅,因此男女有不同的讲话方式。在父母与子女以及朋友之间谈话时,也有细微的差别。日语中像“よ”和“ね”之类的语气词通常放在句末。女性使用这类词来使她们的表达听起来更委婉,男性使用这类词则使他们的表达更强硬。男性的表达方式里还更多地出现浊音,这让他们的话更有力。他们还使用不同的词汇,像“俺”和“お前”(对比自己地位低的人,女性也可能使用“お前”)。然而,如今在书面语以及普通场合的谈话中已经没有明显的性别界限了。
感叹词使用方面的性别差异也在逐渐消失。像“あれ(哎呀)”,“ええ(嗯)”,“おお(噢)”,“うそ(不会吧?)”以及“ほんと(真的?)”之类的表达方式就是男女共用的。也有女性用“あれ(まあ,あらまあ)どうしましょう”(天哪,怎么办呢),而男性用“おい、どうした?(喂,咋回事)”之类的表达的差别。不过,应该说在词语的使用方面,性别差异并不很大。有些女性就从不使用女性用语。近来日本年轻女孩儿们还开始使用一度被认为是粗鲁的男性用语。“びに行こうぜ(一起耍去!)”就是一个例子。当然,这是一种朋友之间使用的表达方式,不能用于正式场合。不过,作为外国女性没有必要改变习惯去专门学习女性用语。但初学者谨慎使用曾被认为是某一性别专用的表达,而多使用那些男女通用的表达方式则是比较明智的选择。
以上,对日语的特点作了一点概说也有一些小小的建议,人说“光说不练,假把式;光练不说,傻把式”。如果你想再学一门外语,那就试试日语吧,相信你一定会找到自己的优势和乐趣的。
参考文献:
[1]翟东娜.日语语言学[M].北京:高等教育出版社,2006,5.
当我在一遍遍在抄写着要背诵的句子时,我想到了曾经刚刚学英文字母的时候,其实那个时候,老师布置的作业,不就是回家写单词字母,一个字母写上一页两页。以前刚刚学认汉字拼音的时候,也不一样的道理,一个新学的生字,生词,都要写上好几页。
英语与汉语是完全不同的两种语言。英语是表音文字,其构词手段主要以词根为中心,添加前后缀,派生出大量的单词。词根是单词的核心,表达该词的主要意思。汉语是表意文字,汉字由象形、指事、会意、形声、专注及假借六种方式构成。随着汉字的发展,形声的造字功能最强,形声字已占90%以上。形声字由表音的声旁和表意的形旁构成,表意的形旁通常是部首。
英语词根与汉字部首都是表意部件,本文对二者进行对比,揭示其在构词、变体以及意义变化方面的共性特点和差异性。
1 构词
英语词根与汉字部首都具有极强的构词能力。英语中存在着大量的同根词,如词根port(港口)构成的单词有:portable, portage, portfolio, comport, deport, import, export, purport, support, transport等。如词根duce(引导)构成的单词有:induce, reduce, produce, deduce, seduce, introduce, educate等。英语以有限的词根创造出大量的单词。在汉语中,部首“木”构成了大量的汉字,如树,枫,根,枝,柳,椰,杈,桂,柜,椅,桌等。《新华字典》列出了共291部的部首目录,体现了部首构成汉字的重要作用。
尽管英语词根与汉字部首都有极强的构词能力,但二者的构词方式大不相同。
1.1 结构形态不同
英语是字母拼音文字,构词成分是按从左到右,从前到后的顺序排列。词根在单词中处于线性的结构。而“汉字属于笔画表意方块文字,尽管其笔画、部件的排列也是有序的,但在前中后、上中下各方位均有可能出现。汉字的笔画、部件排列不是线性的,这是由两种语言不同的形态特点决定的”[1]。
1.2 思维形式不同
在英语中,词根与不同的前缀后缀构成了同根词,这些同根词都含有某种相同的意义,有着内在的逻辑联系。如:表示hold之意的词根tain构成了以下单词:obtain(获得),contain(包含), maintain(保持),detain(留住),sustain(支撑),pertain(属于)。这些单词通过“tain”表达出紧密的逻辑关联。而其对应的汉语“获得”、“包含”、“保持”、“留住”、“支撑”、“属于”却没有相同的部首,没有外在的相同之处,甚至逻辑上也无关联。这说明“英语词汇用同一词缀表示了他们的同义性,而相对的汉语词汇却无法用任何相同的形式来表示这种逻辑上的同义性” [2]。
汉语形象地用同一部首表示同类的字,这些字在外形上有一定的联系。如“蚁”、“蚊”、“蛾”、“蝉”、“蛙”、“蛆”等形象地用部首“虫”表示它们都属于昆虫的类别。然而其对应的英语单词ant, mosquito, moth, cicada, frog, maggot在外形上无相同的词根词缀,在意义上也无任何联系。
据此,可以看出英语词缀和汉字偏旁在构词中的特点表现在下列方面:英语以逻辑思维的形式通过词根派生出同类词,而汉语则以形象思维的形式通过部首组合成同类词;同一词根派生的单词,没有同一部首的汉字相对应;同一部首组合的汉字,没有同一词缀派生的单词相对应。
2 变体
英语词根中,绝大多数的词根存在变体。如abandon中的band, bundle 中的bund, abound 中的bound,都表示“绑,束缚”的词根。同样,汉字部首也存在着变体。如“水”作部首时,有“冫”、“氵”、“臁钡缺涮濉6者处于不同的语言形式,其变体都遵循一定的规律。
英语词根的变化主要体现了以下规律:词根的元音互转和辅音互换,双元音的删减,以及双辅音的删减。
词根的元音互转是指元音字母a, e, i, o, u 的相互转化。如facile的词根是fac(做),其变体是fec 和fic,可构成fecund(多产的)和deficit(赤字)。其辅音互转是指发音相似的辅音字母互换,如清辅音和浊辅音的互换: 词根tend(延伸)变成tent, 分别构成单词extend(伸展)和content(满足);词根ac(动)变成ag,其分别构成的单词有action(行动)和agitate(煽动)。双元音的删减是指一个逐渐弱化的元音被删去,只保留一个主要的元音。如词根ceed(走)转变成ced。同样,双辅音的删减是删去一个弱化的辅音而保留另外一个辅音,如词根capt(拿)变成cap。
而汉字部首的变化与其所处汉字中的位置有关,每个部首有其自己独特的变化形式,整体上无规律可言。例如:手―扌 当“手”放在字左作偏旁时,应使用 “扌”,如“打、 拍、 排、 提、 摸”等; 放在字下面时应用“手”, 如“拿、 擎、掌、攀”等。又如:刀―刂 ■、 刀: 当“刀” 作偏旁放在字右时,应使用 “刂”, 如“刊、到、刺、剁、刹” 等; 放在字的上边时用 “■”, 如“危、争、 急、免、色”; 通常情况下也使用 “刀”, 如 “切、召、分” 等。[3]
3 意义的变化
随着社会的进步,语言在不断的发展。英语词根和汉字部首在漫长的历史发展中,不仅在外形的变体上,而且在内在的意义上也发生了一系列的变化,最主要地体现在由本意向引申义的发展。
英语词根man-来自于拉丁文“manus”,本义是“hand”。manual(手工的),manufacture (用手做,制造),manuscript(手稿),manacle(手铐)都是以词根本义而创造的单词。单词man(人)就来自于词根man,表明人类区别于动物的显著特征就在于能制造工具的手。该词根的引申之义就是“人”,如woman, freshman, dustman等。从“手”引申出来还可以表示“管理”,如manage(管理), manipulate(操纵)等。另外,从“管理”引申出来还可表示“吩咐,命令”的含义,词根man的变体mand构成了单词mandate(指令),command ,demand等。最后,“手”还可引申为“维护,修理”之意, 其变体main构成了单词:maintain, remain, attain。
汉字部首在构词中,意义也产生了变化。如“氵”表示与“水”有关的意义,产生了汉字:江、河、湖、海,涸 等。而“冰、冻、冷、寒”由其变体“冫”构成,其意义发生了变化,引申为“温度低”。如“亻”通常表示人,如“你,他,们,佛”,也引申为人的动作,如“休,修,住,俸,传”。如“口”最初表示器官:喉,、喙;后引申为跟“口”有关的动作:含,嚼,吮,吸,啼;又引申为话语方面的动作:问,咨,听,叨,唠。
虽然词根和部首在发展过程中产生引申义,但较词根而言,部首在很多情况下意义已经消失。例如“件”本指人面牛身的妖怪,也作人面动物的总称,它现在常用作量词,表示个体事物。其本意消失后,“亻”的意义也消失了。 “淑”的本意是水清澈,它现在常表达“美好”的意思。“淑”字的本意消失后, 其部首“氵”字旁的意义就没有了。“需”字本意是下得缓和而有节奏的雨, “零” 的本意是零星小雨, 其部首“雨”的 意义都消失了。而英语中词根的意义在词汇中消失的情况较少,远没有汉字那样明显。
综上所述,英语词根和部首在构词,变体和意义发展上都有共同特点,但又各具特征和规律,反映出两种英汉两种语言的差异。对于语言学习者来说,词汇认知是最重要的环节,而掌握了词根和部首的特征和规律将大大提高语言的学习成效。
【参考文献】
关键词:信息处理 N元模型 语音识别 句法分析
一、中文信息处理的特点
(一)汉字的特殊性
我们都知道,英语在计算机信息处理方面的优势就是其字母数量有限,因而可以很容易的进行输入输出以及信息的加工和处理,而中文的汉字则数量庞大,且字形相对复杂,这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码,总结来说有以下几种方案,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。
(二)书面汉语的特殊性
汉语的另一个特征是在书面表达中,词语和记号之间没有明显的分隔标记,这就使自动分词在书面汉语分析中成立一个难题。分词需要将连续的字按照一定的规范进行有序的组合,比较英文我们会发现,英文单词之间都是用空格来做分隔符,而中文则是习惯通过字、整句以及段落进行简单的划分,而这其中的一个难点就是对词语的划分,我们都知道,英语中也有短语划分的问题,但是由于中文的词语远比英语的数量和范围要庞大,因而处理起来更为困难。
(三)汉语语音的特殊性
在语音方面,汉语的特征是音节结构相对简单,音节划分界限比较清晰,但是声调和变调是中文与英文的显著区别,因而在语音识别和语音合成方面来讲这是一个劣势,但是总体上来说汉语语音的处理比之其他方面来说还是相对容易的。
(四)汉语语法的特殊性
在语法方面,汉语词汇的句法功能相对来说难以判断,这与英语语言上的多变形态有着截然不同的表现。汉语主要依靠词序和虚词来表达不同的含义,因此如果不能很好的掌握句法,就特别容易产生歧义,因此汉语语句自动分析这一重要技术是一项难以攻克的技术。
二、中文信息处理的若干技术
(一)N元模型
设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2。。。wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。P(wn|w1 w2。。。wn-1)不难看出,为了预测词w n的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri-gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)
符号∏i i=3,…,n P(…)表示概率的连乘。一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有P(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。
(二)语音识别