Archive for the ‘08传播学’ Category

2009版《通用规范汉字表》

星期三, 八月 12th, 2009

image

Technorati 标签: ,,

1.8月12日,国家语言文字工作委员会教对《通用规范汉字表》公开征求意见。(点击下载教育部2009《通用规范汉字表》),有趣的是,教育部网站显示文件格式为pdf,可下载下来是jsp,不靠谱。推荐另一个正版pdf通用规范汉字表(征求意见稿)地址,阮一峰的网站

本博在传播学信息一章中曾就中文易读性问题做过梳理,

2.《通用规范汉字表》是现代记录汉语的通用规范字集,体现着现代通用汉字在字量、字级和字形等方面的规范。

3.《通用规范汉字表》收字8 300个。根据字的通用程度划分为三级:

一级字表收字3500个,是使用频度最高的常用字,主要满足基础教育和文化普及层面的用字需要。

二级字表收字3000个,使用频度低于一级字。二级字与一级字合起来共6 500字,主要满足现代汉语文本印刷出版用字需要。

三级字表收字1800个,是一些专门领域(姓氏人名、地名、科学技术术语、中小学语文教材文言文)使用的未进入一、二级字表的较通用的字,主要满足与大众生活和文化普及密切相关的专门领域的用字需要。

4.

  • 600来字就可以覆盖汉语书面语的80%以上,
  • 900多字覆盖90%,2400字覆盖99%以上,
  • 5200多字覆盖99.99%。

5.影响汉字易读性的几个因素:

第一,简繁问题。字表研制过程中,对繁体字恢复和类推简化问题,曾进行过反复的研讨。研制组最终得出的结论是:为了维护社会用字的稳定,字表原则上不恢复繁体字;将类推简化的范围严格限定在字表以内,以保持通用层面用字的系统性和稳定性;允许字表以外的字有条件使用,但不类推简化。

第二,异体字问题。为尊重社会习惯,方便国人用字需要,字表将《第一批异体字整理表》中的51个异体字收入表中,主要用作人名地名,如“喆”“淼”“堃”“昇”等。对异体字不再简单地提“淘汰、废除”,但在使用上有明确要求。

第三,字形问题。字表对《印刷通用汉字字形表》进行了深入研究,总结出隐含其中的字形规则;依此对一些不符合字形规则的字的字形作了微调。这些规则,也使今后大批量汉字的字形整理有章可循。

第四,字表的属性。字表的研制,是以大量的统计数据为基础,以满足现代语言生活的通用领域用字需要为目的,因此具有通用性、现代性和规范性。规范性是字表的本质属性。

另:

image

《通用规范汉字表(征求意见稿)》背景知识词条

撰者按:这里所做的词语解释,不是严格意义上的学术定义,而是为了便于非文字学专业的人更好的理解字表。所列举的词语有的未必只限于表述汉字,其他文字也应涵括,但这里皆把它当作汉字的专有术语来解释。

1。字集:按照一定原则选出的一定数量汉字的集合。比如1988年1月,国家语委和国家教委联合发布的《现代汉语常用字表》就是一个一般社会领域最常用汉字的字集。

2。字量:文字的数量,一般指某一特定范围使用到的汉字的数量。比如1988年3月,国家语委和新闻出版署联合发布的《现代汉语通用字表》的字量是7000个。《通用规范汉字表(征求意见稿)》的总字量为8300个。

3。字形:汉字的外形,即单个汉字在空间展现出来的形貌。比如“王”由三横一竖组成。

4。字级:在一个一定数量的汉字集合内部,根据使用频率和流通程度等属性确定的字的级别。比如,1988年1月,国家语委和国家教委联合发布的《现代汉语常用字表》收字3500个,其中又分为两个字级:前面2500个是常用字,后面1000个是次常用字。《通用规范汉字表(征求意见稿)》分为一级字、二级字、三级字3个字级。

5。字用:汉字在书面作品中使用的情况。确定字用依据的是汉字具体的使用职能。记录同一个词的不同字形可算同一个字(比如说“泪”和“涙”是同一个字);记录不同词的相同字形则可算不同的字(比如“体”,古代读bèn,表示愚笨;现代读tǐ,表示身体,二者虽然形体相同但可算两个字)。

6。字样:《通用规范汉字表(征求意见稿)》的相关文件中所使用的“字样”是指汉字的外部样态。凡是汉字中的线条、图素、笔画在数量、交接方式、位相或体式等方面具有差异,也就是不能同比例重合的字,都属于不同的字样。比如说“泪”和“涙”是两个字样,因为它们的外在形态不同,但字用没有区别,因为它们的职能相同,都是记录汉语中“眼泪”这个词。再比如,“户-户-戶-户-户”五个形体也是5个不同的字样,只是其间的差别主要由于字体风格形成。总之,“字样”描述的是每个字的外形。

7。字频:汉字的出现频率,即某个汉字在一定语料中使用(出现)的次数与样本总字数的比率。比如在一个一万字的文本中, “的”字一共出现过415次,那么“的”字在该文本中的字频便是4.15%(415÷10000×100%=4.15%)。

8。字序:汉字在辞书和各种索引中的排列顺序。汉字的字序主要有音序和形序。比如“天、地、人”三字,按形序(笔画序)排列应该是“人(2 画)、天(4画)、地(6画)”,按音序排列应该是“地(di)、人(ren)、天(tian)”。几个字笔画相同时,则依照笔顺的先后顺序排列(笔顺的先后顺序是横1、竖2、撇3、点4、折5),如“文、王、队、日、午”五个字全是四画,起笔分别为点、横、折、竖、撇,依照笔顺则应排列为“王、日、午、文、队”。

9。类推简化:某个字形简化了,当这个字作为其他字的构件时如果也可以跟着简化,就形成类推简化。《简化字总表》规定其第二表中的132个简化字和12个简化偏旁,可以类推简化。比如“嚴、龍”简作 “严、龙”,“儼、壟”可以类推简化作“俨、垄”;“車”简作“车”,则以“車”为偏旁的“軌、軍、庫、載”可以类推简化为“轨、军、库、载”。

10。有限类推:类推简化限定在一定范围内。《通用规范汉字表(征求意见稿)》实行的就是有限类推,即凡收进字表的字如其字形是繁体,都依据《简化字总表》规定的原则而类推简化。而字表以外的字,不管其形体是否含有已经简化了的繁体字形,都不再类推简化。比如“驦、驌、鸘、鷫”四字收进了字表,依据类推简化原则,将们分别简化为“骦、骕、鹴、鹔”。与其相对的说法是“无限类推”,也就是某个字不管其现在是否使用,只要其形体含有已经简化了的繁体字形,都类推简化。比如“驡”现在基本不用,但因为 “龍”简化作“龙”、“馬”简作“马”,于是把“驡”类推简作“龙+马”。无限类推学术界不赞成,主管部门也已明确否定。

11。异体字:“异体字”是与“正体字” 相对的概念。音义和使用功能相同而字形不同于正体字的汉字。例如,“峰-峯”、“凳-櫈”、“朵-朶”、“泪-涙”等字组中,后者皆为前者的异体字。严格意义上的异体字,其职能不由正体字承担,是汉字的冗余,给记忆带来负担,所以有必要限制其使用。

12。宋体字形:宋代刻版印书通行的字体。结构方正匀称,横细直粗,便于刻版,阅读醒目,是16世纪以来汉字的主要印刷体。当前出版物上的常用字体,除宋体外(如:小),还有仿宋体(小)、楷体(小)、黑体(小)等。

13。《第一批异体字整理表》:1955年 12月22日,文化部和中国文字改革委员会联合发布的新中国第一个汉字规范,1956年2月1日起在全国实施。该表内列810组字,每组最少2个字,最多 6个字,共1865字。根据从简从俗的原则,从中选出810个作为正体,淘汰了1055个异体字。比如“橹—艪艣樐”为一组具有正字与异体字关系的字,该表将“橹”定为正字,“艪艣樐”是淘汰的异体字。该表发布后,不仅精简了汉字的字数,而且有效地遏制了汉字使用中的字体混乱现象。

14。《印刷通用汉字字形表》:1955 年,中国文字改革委员会提出进行汉字字模标准化工作,以统一印刷字体和手写正楷体的笔画结构,精简偏旁部件的种类,确定汉字的标准字形,并把它作为书写的规范和设计印刷、打字字模的标准,以利学习和使用。1956年9月,标准字形研究组编成了《标准字形方案(草案)》,1957年对该草案进行修改并更名为《汉字字形整理方案(草案)》,1959年初步定稿;1960年5月,在前表的基础上又编成《通用汉字字形表草案》;1962年3月,文化部决定把整理字形的工作确定在印刷通用汉字的范围内,并改名为《印刷通用汉字字形表》。

整理字形的原则是:①宋体楷化;②字形结构和笔势尽量服从横写的需要;③折笔尽量改为直笔;④连结个别笔画结构;⑤精简偏旁的数量;⑥按读音分化原有部件。1964年5月,字形整理组拟出《印刷通用汉字字形表》,1965年发布实施。收印刷通用汉字6196个,并给每个汉字规定了笔画数、结构和笔顺。经过对字形的调整和美化,进一步取得了宋体字笔形的一致,使字形更趋于规律性、系统性。

15。《简化字总表》:1956年1月,国务院公布《汉字简化方案》;1964年3月,中国文字改革委员会、文化部、教育部联合发布《关于简化字的联合通知》,《总表》分成三个表。第一表所收的是352个不作偏旁用的简化字。这些字的繁体一般都不用作别的字的偏旁。个别能作别的字的偏旁,也不依简化字简化。如“習”简化作“习”,但“褶”不简化作“衤+习”。第二表所收的是132个可作偏旁用的简化字和14个简化偏旁。第三表所收的是应用第二表的简化字和简化偏旁作为偏旁得出来的简化字。 1986年10月,国家语委经国务院批准重新发布了《简化字总表》,并作了个别调整。调整后的《总表》,实收简化字2235个。

16。《现代汉语常用字表》:1988年 1月26日,国家语委、国家教委联合发布,目的是为了适应语文教学及其他方面的需要。字表分常用字(2500字)和次常用字(1000字)两个部分。选字原则是:①根据汉字的使用频率,选取使用频率高的字;②在使用频率相同的情况下,选取学科分布广、使用度高的字;③根据汉字的构字能力和构词能力,选取构字能力和构词能力强的字;④根据汉字的实际使用(语义功能)情况斟酌取舍。其后,国家教委颁布的基础教育教学大纲规定基础教育阶段的识字量为3500字,完全等同于本字表。

17。《现代汉语通用字表》:国家语委、新闻出版署1988年3月25日发布。共收7000字,包括《现代汉语常用字表》的3500字。本表的制订,主要依据1965年颁布的《印刷通用汉字字形表》。根据实际需要,删去《印刷通用汉字字形表》中的50字,增收854字。同时,本表依据《印刷通用汉字字形表》确定的字形标准,规定了汉字的字形结构、笔画数和笔顺。其后,印刷通用汉字字形即以此表为准。

18。语料库:应用计算机技术存储语言材料的总汇。语料范围可以是综合的,也可以是专项的,如国家语委“现代汉语平衡语料库”(收1919-2002年的语料9100万汉字)。语料库的容量大小和编制体例可根据需要设计,内容也可以及时更新补充。

19。《GB13000.1字符集汉字字序(笔画序)规范》:GB13000.1 字符集是指国家标准汉字编码字符集,共20902个汉字。《GB13000.1字符集汉字字序(笔画序)规范》由国家语委1999年10月1日发布、 2000年1月1日实施,编号为GF3003-1999。它是按笔画排序的汉字字序规范,主要用于汉字的信息处理、排序检索、辞书编纂等方面。

20。历史通用字形:即在历史上已经通行的汉字。一般指《康熙字典》之后、特别是《中华大字典》(1915年)之后的字形。使用历史通用字形的原则:字形要有历史上使用过的依据;有多个字形可以采用时,要尽量选取通行度高、易于识别的字形。这个概念主要针对这种情况:如果文章中需要使用非常生僻的字,要使用历史上已经通行的字形,不要生造新字或乱改字形(包括类推简化),以免增加汉字的繁复程度。比如“壣”“蘹”未收入字表,如果写作时确需使用,则不能将其简化为“土+联”“艹+怀”,也不能写成其他新造形体,而要使用古书中所使用的原字形。

中文易读性的影响因素

星期一, 四月 27th, 2009

image

1.易读性(readability)指文本易于阅读和理解的程度,影响因素分三大类:

(1).客观因素:文本;

(2).主观因素:读者;

(3).环境因素。字体设计、字号、字距、印刷质量等版面因素。

2.针对第一类客观因素,文本而言,学者进行了不少研究。其中最具代表性的是美国哥伦比亚大学的弗雷奇的研究,并给出了英文易读性测量公式和人情味公式(如下图)。

www.zhangjianjun.cn传播在北纬39度

 

 

 

 

 

 

 

 

 

 

 

image

 

 

 

 

 

 

 

 

 

 

 

 

3.  德尚(Dechant)和史密斯(Smith)研究认为英文阅读材料的易读性受下列16大因素影响:

1.词长;2.不同词的比例;3.句长;4.人称代词;5.音节数;6.代词数;7.词缀数;8.介词短语数;9.依据词汇表所确定的难词数;10.使用简单句还是复杂句;11.事实密度及其不常见性;12.插图数目;13.趣味性及写作目的;14.概念负载量——词汇的抽象程度;15.材料的组织及印刷版式;16.内容之间的相互关系等等 。

4.  中文易读性的四大影响因素(就文本而言):

(1).字:根据现代汉语频率表,常用字易于理解。 另外多音、多义字影响易读性。

(2).词: 常用词易读,汉语频率词典的前1000高频词使用累计频率占73.13%。成语、典故、专有名字、术语等词影响易读;人称代词多易读。

(3).句子:短句易读,一般认为20个字以内的句子为易读。清华大学中文系罗振声建立了现代汉语句型研究语料库,从中总结出209种汉语句型,分为高频、次频、低频以及生僻等四级句型。高频的句型相对易于阅读,生僻的句型难以阅读。

(4).语法、句法、修辞影响易读性。

陈阿林(重庆师范学院计算机中心)和张素(西南师范大学计算机科学系)撰写的论文《中文阅读难度模型及易读性公式探索》设计了中文易读性测量模型,如下图。

 

image

 

 

 

 

image

 

 

 

 

以上为《传播学》第二讲“信息”中涉及易读性部分的总结和思考,欢迎交流。

传播学第二次作业,编辑百科词条

星期一, 四月 6th, 2009

传播学百科词条

1. 作业内容:每人编辑三个词条,修订三个词条;每个演讲小组,将演讲主题编辑词条,组长负责组织协调。。

2. 以学号为名http://www.chuanboxue.org/index.php?user-register.htm 注册(可以上传头像,编辑个人资料),然后选择右上角“创建词条”按钮,选择词条所属分类,编辑词条。

3. 时间:4月24日前100%,4月25日至5月1日前50%成绩。

4. 词条任务表见http://spreadsheets.google.com/pub?key=pVJ6v7QgwV6b2q2cuMgUtAg

5. 要求:有目录(词条的结构目录)、图片(人物、院校的照片、事物图片、理论结构图片)、网址链接(院校系网址、学者博客地址、媒介机构的网址)、人物(照片、生卒时间,国别,所在机构、主要学术成就,代表作)

具体每类词条的目录和内容如下:

  • 理论类词条:要求给出理论的提出者(包括国籍)、理论的内容、理论评价和影响、以及具体应用等。
  • 人物类词条:人物的基本情况:照片、生卒年月、国籍、所属院校或研究机构、博客地址、学术和专业贡献、出版书籍和文章、评价等。
  • 媒介机构:照片、网址、机构所在国家、机构历史、机构现状、机构影响力等。
  • 传媒院校:图片、网址、所在地、联系方式、历史沿革、现状、专业介绍、影响力等。
  • 传媒杂志:杂志封面、网址、所在地、联系方式、杂志历史、现状、栏目等。
  • 学术网站:网站首页截图、网址、联系方式、历史、现状、栏目、影响力等。

6. 提交方式:以上次在辅导网站注册名登陆后,将作业提交到本页后,留下编辑和修订词条链接。

*************************************

交作业特别注意:

1.在完成三个创建词条和修订前一个学号的三个词条后提交作业。

2.将你在传播学百科网注册的用户名网址提交,即可看到你所“创建”和”编辑”的词条。最好将头像上传,可以便于识别各位,增加积分。比如张洁只需提交个人档案地址:http://www.chuanboxue.org/index.php?user-space-39.htm

3.只需提交一次留言,正常应该提交成功,请勿重复提交,回首页再点开文章查看是否提交成功。系统有小bug,会显示“评论关闭”,不必理会。

注意:可以参考其他网站的信息,但是一定要给出注释,尊重别人版权。

7.传播学百科网使用帮助:

添加目录

怎样生成目录?

互动百科的目录功能类似于文章中的段落标题,组织词条内容的重要工具,根据目录的不同梳理和划分词条各方面知识。目录还含有索引的功能,浏览者通过点击目录可以快速到达并浏览该段内容。

在词条编辑页面,用鼠标选中要成为目录标题的文字,然后点击添加目录按钮,文章就会自动生成一个目录。
示例:词条“八路军”可以需要包含一下几方面的内容:历史背景、成立经过、发展历史、主要战役、各级将领军衔、军服、军歌、历史影响等。可以将这些内容为设置为目录,统领相应部分的内容。为简明扼要起见,每个目录尽量在6个字以内。
当编辑完词条,点击“发布”按钮后,编辑器就会在词条正文中自动生成一个目录。在词条正文页,目录数超过6个,多出部分自动隐藏,点击“显示全部”,即可看到完整目录。

小贴士:插入段落标记的快捷键是ALT键+W。

插入图片

怎样插入图片?

在一个词条中,合理的插图不仅能让他人更好的理解词条中文字的含义也能让词条变得更美观。因此,如何把一张清晰的图片插入词条中就是我们必须要学会的事了。

(1)在编辑页面中,首先选择好插入它图片的位置然后点击“插入图片”。
(2)在弹出的图片选择页上,点击“浏览”选择要上传的图片。
(3)选择图片的大小(推荐选择300×320的格式)并选择图片模板(推荐选择图片+标题),点击确定之后即可插入到页面中。
(4)如果对位置不满意可以选中图片框,然后拖动到满意的位置即可。图片的格式必须是gif或者jpg格式的图片。

插入表格

如何使用表格功能?

将光标放在要插入表格的地方之后,选择表格功能,点击插入表格按钮。

在弹出的“插入表格”页面,填入表格的行数、列数以及宽度。(宽度有像素和百分比两种形式);选择插入表格在词条中的位置,选择“左”或者“右”,插入的表格将形成文字包围表格的样子。

最后点确定,表格就插入完成了。如果还想对表格进行调整和改变,可以使用表格编辑工具条对表格进行编辑。

内链

怎样设置一个词为内链?

内链全称内部链接,当词条正文中有其他相关或者热门词条时,内部链接可以使用户点击后跳转到相关词条中,方便了用户的延展阅读。为词条中的关键词加内部链接,可以加强词条与词条之间的关联性,这是百科编辑中非常重要的一个环节,也是衡量百科编辑水平高低的重要参考。

添加方法是:在词条编辑页面,用鼠标选中要成为内部链接的文字,然后点击内链按钮,文章就会自动生成一个内部链接。

小贴士:插入内部链接的快捷方式是ALT键+Q

内部链接的注意事项:

a、词条本身不用刷链接,示例:“月食”这个词条下,不要将 “月食”刷成内部链接。
b、文学作品、影视、歌曲、音乐专辑、游戏等词条名称都需要加上书名号,如《大宅门》《魔兽争霸》
c、内部链接的规范与词条名称规范相同,请参见词条名称规范。
b、内部链接应考虑词条准确性、完整性,如“某某毕业于北京大学”,内部链接应该选“北京大学”,而不是选“北京”。

插入模板

如何使用模板功能?

模板可以提供预设的排版格式,用户只需选择适合的模板并在模板内加入对应的内容即可。方便使用的同时还可以让词条格式规范统一。

插入模板的方法:

将光标放在要插入模板的地方之后,点击“插入模板”。

选择适合的模板后点击“确定”,然后在相应的位置填写或插入内容即可。

插入多媒体

怎样插入多媒体文件?

词条里可以添加多媒体格式的文件在线地址,不支持本地上传,如土豆、优酷等在线视频网站直接引用的地址都可。

插入视频的方法:

将光标放在要插入视频的地方之后,选择高级功能,点击“多媒体”。

在视频地址框内填入视频的地址,即地址应为http://www.tudo…..的形式,支持的多媒体格式为wmv、rmvb、mp3、wma、swf。宽度建议使用默认的320×240模式。当词条正式发布后,您就可以在词条的页面看到这个视频。

发布

如何发布词条?
终于编写完了一个词条,需要发布出去了。只需点击左侧上部的“发布”按钮即可。

需要注意的是,在发布前请填写好该词条的标签和摘要。适当的标签有利于词条显示,好的摘要会形成美观准确的摸摸。另外,如果是编辑词条,必须填写修改原因。

注:标签,摘要,修改原因功能在页面的底部,点击即弹出。