HSK动态作文语料库代码说明
“HSK 动态作文语料库”语料标注及代码说明 “HSK 动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误 进行全面标注。 1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的 等等。把别字移至[B]中 B 的后面,并在[B]前填写正确的字。 例如:提[B 题]高、考虑[B 虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中 D 的后面。 例如:我的[D 的],表示括号中的“的”是多余的字(原文中写了两个“的”)。 [F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中 F 的后面,并在[F]前填写简体字。 例如:记忆[F 憶]、单{F 單}纯、养{F 養}分{F 份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。 例如:俭朴[F 樸[B 僕]]。 2)繁体字写错了,标为:后[F 後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中 Y 的后面,并在[Y]前填写简体字。 例如:偏[Y 徧]、沉[Y 沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中 P 的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。 例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中 BC 的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中 BQ 的后面填写所缺的 标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中 BD 的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4 种情况: 1)把词的构成成分写错顺序的。 把写错的词移至{CC}中 CC 的后面,并在{CC}前填写正确的词。 例如:首先{CC 先首}、众所周知{CC 众所知周}。 2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。 标示方法同上。 例如: 虽然现在还没有实现{CC 实践},…… 它在{CC 对}价格方面有点贵,所以没得到广大消费者的支持{CC 持支}。 3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。 例如: 农作物{CC 农产物/农物}、农产品{CC 农作品} ……但长期来看造成环境污染,破坏自然生态{CC 目态},…… 绿色食品的好处在于吃这些食品后在身体里没有农药的残留量{CC 潜留量}。 4)词语搭配错误。包括词性、音节等方面的搭配错误。 例如: 最好的办法是两个都保持{CC 走去}平衡。 我也回{CC1 回去}沈阳。 吃这种东西会{CC1 可以}得{CC1 得到}病{CC1 疾病}。 {CLH}:离合词错误标记,用于标示各种和离合词相关的错误。标在有错误的离合 词的后边,表示前边的离合词用法有误。 例如: ……我快要毕业{CLH}大学{CQ 了}。 虽然这么[L]多年都没见面{CLH}过,…… ……我对哈尔滨{CJ-zy 很}感兴趣。有观光{CLH}哈尔滨的宿愿。 {W}:外文词标记,用于标示以外文词代替汉语词的情况。把外文词移至{W}中 W 的后面,并在{W}前填写相应的汉语词。在 W 和外文词之间填写汉语词的字数。 例如: 非洲{W2Africa}、爵士乐{W3jazz}。 ……教我工作的方法{W2ABC}。 {CQ}:缺词标记,用于标示作文中应有而没有的词。在缺词之处加此标记,并在 {CQ}中 CQ 的后面填写所缺的词。 例如: 这就{CQ 要}由有关部门和政策管理制度来控制。 ……有的农民{CQ 在}不使用化肥和农药的情[B 精]况下[BD,]养农作物,…… {CD}:多词标记,用于标示作文中不应有而有的词。把多余的词移至{CD}中 CD 的后面。 例如: ……然后肯德基的收入有所增加{CD 了}。 中国政府应该采取良好的措施来管理农业{CD 方面},…… 但我觉得{CD 按照}上面所写的方法是现在很多人或国家用的方法。 词处理中需要注意下列问题: 1)因介词、方位词等的缺少或多余造成的结构不完整,助词的错用、多用、漏用, 词性误用等,均视为词的错误。 例如: 随着社会{CQ 的}发展,人们{CQ 对}吃的东西很重视。 在这个过程{CQ 中}…… 特别是非洲{CD 的话},问题很大的。 2)结构助词“的” 、“地” 、“得”混用:按错词处理。 例如: 按照人们的要求不用化肥和农药的话,产量会大大地{CC 的}下降。 我认为当你很饿的时候,什么东西都吃得{CC 的}下。 孩子们饿得{CC 地}大哭小叫,…… 3)该用汉语数字而用阿拉伯数字的,一律按错词处理。 例如: 那应该怎样解决呢?所以我想出了一{CC1}个办法,少用化肥和农药。 把“十五”写成了“一五”,应把“一五”整体按错词处理,而不能仅仅把“一”处理为别 字。 4)错词、多词、成分赘余的一个标注符号中可以包括两个或两个以上的词。 例如: 我想任何人{CC 每一个}都不要有浪费食品的习惯,……(每/一/个) 没有{CC2 重视做未经}污染的食品就是绿色食品。(重视/做/未/经) 5) 原文字数和改后字数不一致的, 须在括号中 CC 之后且紧靠 CC 处加一个阿拉伯 数字,表明改后的字数。 例如: 战[Pzhan]争中最困难的人是没有力气的孩子和老人{CC5 老弱子}。 所以我认为首先农民可以使用天然肥料{CC4 化肥},代替化肥来种植农作物…… 6)不清楚或无法理解的词用{CY}标示,表示“存疑”,标在该词的后面。 例如: 虽然这么[L]多年都没见面{CLH}过,但我和他们的忆惯{CY},是忘不了的。 3、句处理: {CJ}:病句标记,用于标示错误的句子。一般标在有错误的句子之后、该句标点之 前,并用小写汉语拼音字母简要标明病句的错误类型。 例如: 他把那本书看{CJba}。 我认为我们先尽量地[B 的]产出农作物给他们,先给他们不挨饿{CJjy}。 如果有人批评这是太奢侈{C