语料库介绍
“国家现代汉语语料库”是由中华人民共和国国家语言文字应用委员会主持建立的一个现代汉语书面语通用平衡样本语料库,它于1993年开始建设。该语料库的{dy}批语料数据是1919年至1992年的语料,共7000万字,以后每年递增1000万字,是目前{zd0}的现代汉语平衡语料库。
“国家现代汉语语料库”建设的目标是能客观地反映现代汉语在字、词、句法、语义、语用等方面的全貌。它的应用领域主要有语言文字规范与标准的制定、语言文字的学术研究、语文教育、语言文字信息处理、语言文字的社会应用等。该语料库的结构设计遵循通用性、描述性、实用性、随机性等原则,从而保证该语料库的平衡性和代表性。
本系统处理的是国家语委语料库中的2000万字精加工语料,拥有强大的查询功能,能为汉语言的调查、统计与分析提供便捷的服务。
在整个查询系统中,用户可自由选择语料的领域(政治、经济、体育等),并且可以自由限定返回结果的词语数量,同时还能对查询条件进行词性的限定。该系统主要功能特色:
1、支持自定语料库范围在国家语委现代汉语语料库的分类体系基础上选择所需类别,缩小检索范围。
2、提供普通查询功能对用户输入进行xx匹配,可设置多条件检索。
3、支持重叠词查询本系统提供模式检索,输入重叠词模式(用任意字母表示),并可进一步限定其中包含的关键字词,系统将返回语料库中所有满足这些模式的结果。
4、支持高级查询表达式根据我们定义的语法,用户可进行词性查询、组合查询、短语查询、句式查询、指定距离查询等。
5、支持查询结果进阶处理包括统计(关键字统计、互信息统计、词频统计)、组合排序等。
6、多种结果显示方式支持原始语料与已标注语料的显示方式,并提供结果显示窗口的大小设定功能。
语料分类体系
1992年4月27日至29日,国家语委文字应用管理司在京组织召开了现代汉语语料库选材原则专家论证会,在专家充分论证的基础上,于1993年1月制订出《现代汉语语料库选材原则》。具体选材任务分别由中国社会科学院语言所、北京师范大学中文系和中国人民大学中文系三个课题组承担。选材工作自1992年底开始,按照通用性、描述性、实用性等原则系统地抽样选择了1919-1992年的现代汉语语言材料7000万字,由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下:
1. 人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。
2. 自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。
3. 综合类语料由应用文和难于归类的其他语料两部分组成。应用文使用很广泛,主要涉及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等;(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等;(3)司法文书:诉讼、辩护词、控告信、委托书等;(4)商业文告:说明、广告、调查报告、经济合同等;(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等;(6)实用文书:请假条、检讨、申请书、请愿书等。
语料来源
语料来源包括教材、报纸、综合性刊物、专业刊物、图书等。每个样本的容量为2000字左右,书籍的抽样字数一般占全书总字数的3-5%,最多不超过10000字;每本刊物上所选的总字数原则上不超过5000字。到1993年底,课题组完成了语料选材、清单制定和样本制作工作.7000万字语料选材完成后,各类语料实际比例基本符合《选材原则》中规定的比例,但都有所调整。各类语料所占比例如下:
人文与社会科学类语料占语料总量的59.6%,自然科学类语料占语料总量的17.24%,综合类语料占语料总量的9.36%,取材于报纸的语料,难于划分门类和语体,因此单独计算,报纸语料占语料总量的13.79%。另外,取材于教材的语料总量有2000万字,已经按学科计入各类语料。
国家语委文字应用管理司于1993年9月21日至24日在北京主持召开了现代汉语语料库选材专家审定会。在京的语言学界、计算机科学界的专家学者20多人出席了会议。与会专家一致认为,该语料库的选材是国内规模{zd0}的一次,选材论证充分,系统性强。与会专家对选材清单和语料样本进行了认真详细的审定,一致认为,该语料库的选材符合《现代汉语语料库选材原则》;清单制定和样本制作符合《现代汉语语料库选材实施过程中应遵循的原则和方法》和《现代汉语语料库选材清单项目与填写说明》中的规定和要求。