蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > DOC文档下载
 

林业古籍断句模式语料库建设方案探讨——以《树艺篇》为训练文本

  • 资源ID:50855614       资源大小:67.33KB        全文页数:7页
  • 资源格式: DOC        下载权限:游客/注册会员    下载费用:10积分 【人民币10元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要10积分 【人民币10元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

林业古籍断句模式语料库建设方案探讨——以《树艺篇》为训练文本

林业古籍断句模式语料库建设方案探讨一以树艺篇为 训练文本■建筑论文 林业古籍断句模式语料库建设方案探讨以树艺篇为训练文本 赵阳 南京林业大学人文学院,江苏南京210036 【摘要】随着中文信 息处理技术的不断提高,古籍自动化标点的硏究也日益趋向成熟。但是现有的模 式并不太适合林业类古籍。林业古籍有其独特的表达和术语,与一般性质的古籍 存在区别的。本文以树艺篇为训练文本,对林业古籍断句语料库的建设问题 进行探讨。 关键词林业古籍;断句;语料库;树艺篇 This Paper Probes into the Corpus Construction Scheme of Forestry Ancient Books in the ShuYi Pian for Training Text ZHAO Yang Nanjing Forestry University College of Humanities,Nanjing Jiangsu 2100036 , China 【Abstract 】With the constant improvement of the Chinese ination processing technology, the study of ancient books automation punctuation also increasingly mature. But the existing models are not suitable for forestry kind of ancient books. Forestry ancient books has its unique expression and terminology, difference with general qualitative ancient books. In this paper with the tree art paper for training text, discusses the problems on construction of forestry ancient punctuate corpus. [Key words】Forestry ancient books ;The pausing ;Corpus ;ShuYi Pian 古籍断句,是古籍整理实践中重要的组成部分。通过标点原文,能够区 分岀原文字句段落,厘清上下文关联,从而引导读者理解内容。这是非常有助于 古籍的传播和阅读的。中国林业类古籍的整理主要功在收集,但其中仅有少量的 文献被标点。那么如果希望更多的林业古籍被有效利用,就必须加大古籍整理的 力度。中文信息处理技术的介入,提高了该领域的工作效率,这其中尤以自动化 标点的实现最为紧要。目前已有不少这样的硏究成果有古籍断句的系统结构图 以及基于模式匹配的断句方法;有基于前后n-gram模型的古汉语断句算法和_ 种可用于古文自动断句的以两个统计量互信息和测试差为特征的条件随机场模 型;另外2011年国学网还开放了一个古籍断句评测系统。但是林业古籍有其专 业性,有该领域独特的表达和术语,与一般的古籍是存在区别的。这就需要我们 对林业古籍自动化断句方式进行硏究。而这其中的关键,就是建立断句模式语料 库。 1断句模式语料库建设的必要及文本对象的选择 断句模式语料库,是实现林业古籍自动化断句的基础,是建立识别特征的规 则、数量、质量的关键所在。这里对断句模式语料库的硏究,特别强调林业古籍 本身特征的提取,而不完全依赖于计算机识别程序的运用。因为计算机识别程序, 有其基本的功能模块,也能进行专门的文本处理,但是如上所述,林业古籍与一 般古籍的确实存在区别,所以应该设置出更具针对性的模式语料库,然后再结合 计算机模式识别程序进行操作。这里语料库建设不是古籍原文的整体输入,而是 从事理逻辑、叙事层次、语义层次、语词特征等性质入手,建立起识别规则和模 式,同时要兼顾古籍整理标点中的诸多规定和限制,最终形成一套可以按照一定 规则进行优化、合并,归类的体系。这对林业古籍自动点校的实现是非常重要的。 在文本对象的选择上,本文选择树艺篇为实验对象。树艺篇被列入 子部农家类,共33卷。整部书先列总目,后分列谷部、蔬部、草部、草药部, 木部、果部共六类。本论文主要以木部为硏究对象具中木部包含有合欢、榆 杨 柳、绵柳、白杨、黄杨等14种中国常见的树种。木部的资料收集时间上跨越 性较大,上及汉代,下迄明代。从材料性质上看,不仅涉及到树木的基本介绍、 还有技术性指导,甚至还有文学材料的介入;因此,选择本书作为硏究个案,具 有较好的代表性。另外这部书到目前为止,没有任何单行本或者合集的方式做过 点校,相对选择已有过点校本的古籍来说难度更大,从语料学角度看,具有代表 性,从实践意义来说,具有较大的开拓价值。 2林业古籍断句模式语料库建设的难点 断句模式语料库的建设,必须结合林业古籍本身特点来设计,这里提出以下 几点难点问题第一,重视林业古籍中的专门词汇的分割。词汇的分割一直也是 人工古籍标点的难点之一,有语言学者提出”语言中存在大量的复音词语。它们 无论是合成词、联绵词还是短语,都作为一个造句单位使用,不容许割裂。如果 在中间加上标点,就把它们一分为二,也就是点破了词语,从而破坏了意义的完 整,改变了整段乃至全篇文字的意旨。这也是句读标点中常见的错误。①而古 籍中的词汇由于时代的变迁,词汇的含义及使用都发生了变化。这样的特征,再 加上林业类词汇有其专业性,所以词汇的分割正确与否,直接关系到全文的连贯 性。第二,注意词句位置及归属。词句的位置及归属判断直接影响到阅读者对文 章的理解。一般古籍,可以借助上下文理解,或者借助史料背景去解决词句归属 的难点,而林业古籍,从现代图书分类来看,属于技术类文本,所以出现词句位 置判断失误或者误判归属的问题会更多。这其中必须加强对关键词的判断,如 若关键词 判断失误,那么接下里的断句也会产生较大的偏差。第三,注意林 业古籍中的引文、补遗、注释等文字。这类文字是引自各种方志类书,不同朝代, 不同性质,甚至有些引用文献都已亡佚。以树艺篇为例,书后有章饪手写目 录,统计193种文献。如木部榆这一条的论述中,所引各种文献若干条,涉及 到尔雅、广志、云山志、九华志、武夷志、九江府志、兴化府志、 松江府志等等,这其中涉及到很丰富的背景知识,有典章制度,官制,地理、 风俗习惯,典故等等,所以这是一个非常值得关注的问题。 3林业古籍断句语料库的标注识别规则 传统计算语言学基本离不开语料统计,但是面对复杂的文本,还需要有针对 性地结合一些规则。这里结合林业古籍的特征以及上述难点,在古籍人工点校和 计算机处理的双重技术支撑下,考虑在普通古籍语料库模式类型基础上,着重以 下几条识别规则。识别规则实际上与标注方式有关,关键是将林业古籍文本的特 色融合到标注过程中,在此基础上取得最优的标注效果。 3.1词汇特征识别规则 在林业词汇中,不少专业词汇与普通古籍

注意事项

本文(林业古籍断句模式语料库建设方案探讨——以《树艺篇》为训练文本)为本站会员(aaakkpc)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开