蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > DOCX文档下载
 

SPSSClementine决策树建模在图书馆中应用

  • 资源ID:53133048       资源大小:93.96KB        全文页数:11页
  • 资源格式: DOCX        下载权限:游客/注册会员    下载费用:10积分 【人民币10元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要10积分 【人民币10元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

SPSSClementine决策树建模在图书馆中应用

SPSS Clementine决策树建模在图书馆中应 用 摘 要分析影响读者借阅量的因素,确定不同读 者的借阅需求,进而依据需求定制差异化的借阅权限和服 务。利用SPSS Clementine挖掘工具,采用C5. 0决策树算 法,对国际关系学院图书馆的读者借阅数据进行挖掘,建立 读者决策树分类模型,将读者按借阅频度分为活跃读者、一 般读者和沉默读者。结果表明,读者身份、专业、年级和性 别对借阅量有重要影响,本科大三学生借阅需求较大,大四 学生借阅需求小。决策树分类能对图书馆读者进行细分,可 为调整读者借阅权限提供理论依据。 关键词决策树;分类;图书馆;Clementine;借 阅权限 中图分类号TP391文献标志码A文章编号 1006-8228 2014 04-30-04 Abstract The facto【s influencing readers borrowing amount are analyzed and different readers borrowing demand are determined. The differential borrowing authority and service are customized. A decision tree classification model of reader borrowing frequency is built with C5. 0 in mining tool of SPSS Clementine. The decision tree classifies readers into three groups activing readers, common readers and silent readers. The mined data come from reader borrowing records of the library of university of international relations. The resuIts show readers identity, major, grade and gender have an important effect on borrowing amount. The borrowing demand of junior students is great, while that of senior students is small. The library readers may be classified by refering to decision tree classification to provide theoretical evident fo【adjusting borrowing authority. Key words decision tree ;classification ; library; Clementine; borrowing authority 0引言 数据挖掘能从大量数据中发现有用的知识,目前己成功 应用于各个领域。图书馆系统积累了大量读者数据,研究如 何将数据挖掘有效地用于图书馆[1-4],变数据为知识,从 而更好地为读者服务,是数据挖掘和图书馆工作者的共同责 任。 决策树分类是数据挖掘中的一种重要方法,该方法通过 对已有数据的学习,识别影响对象分类的若干因素,构建一 个决策树分类模型,对对象进行分类。文献[5-6]为决策树 在图书馆读者借阅数据中的应用实例,其中文献[5]利用 C4.5算法,对306条读者借阅记录进行了分类建模,利用学 历、专业和年级三个属性,构建借阅次数(高/中/低)分级 模型,得出的结论为学历是第一决定因素,其次是专业和 年级,研究生和大四学生借阅量低等。笔者认为文献[5]挖 掘的数据量过小,不具有足够的说服力,且借阅次数分级采 取主观划分的方法,缺乏依据。文献[6]利用ID3算法,对 1969条研究生的借阅记录进行了分类建模,利用读者是否为 新生、是否为工程类学生、性别和距离图书馆的远近等属性, 构建决策树模型,得出的结论为读者是否为新生为第一决 定因素,其次为是否工程类、距离远近和性别,一年级新生 离图书馆近的、高年级工科学生为活跃读者等。笔者认为文 献[6]的数据只覆盖研究生读者,样本不全,且模型仅从训 练数据构建,没有测试数据测试,使模型的普适性受到怀疑。 另外,文献[5-6]没有对具体所用挖掘工具的介绍。 针对上述研究背景,本文使用SPSS Clementine软件, 采用基于C5.0的决策树分类算法,对国关图书馆的4366条 读者借阅记录进行建模。建模过程综合考虑读者身份、专业、 年级、性别、民族和索书号等因素,构建读者借阅频度决策 树分类模型,分析影响读者借阅量的主要因素,给出针对不 同读者群的借阅权限分配和服务建议。作为数据挖掘在图书 馆的进一步应用探索,本文一方面可为国际关系学院图书馆 开展实际业务工作提供帮助;另一方面可为其他高校图书馆 开展挖掘实践,提供方法和过程指导。 1需求分析及技术思路 1. 1需求分析 国际关系学院图书馆藏书37万余册,服务对象为全校 师生员工、家属、成人教育学员、国际大学预科项目PCP学 员(Pre-College Program)等。服务的部门涵盖法律系、 公共管理系(简称公管)、国际经济系(简称国经)、国际政 治系(简称国政)、日语法语系(简称日法)、文化与传播系 (简称文传)、信息科技系(简称信科)、英语系共八个系。 长期以来,国关图书馆对于读者权限的设定按本科生、 研究生和教工划分,见表lo这种划分一是没有结合读者的 实际借阅需求,可能造成借阅需求量大的读者权限不足,借 阅需求量小的读者权限过剩;二是划分不够细化,没有考虑 到读者年级、专业、性别、成绩等因素对借阅量的影响。依 据读者的现实个性化需求来确定借阅权限,已成为目前高校 图书馆借阅权限改革的方向[7],问题在于影响用户借阅 量的因素有哪些,哪些是主要因素,如何确定这些因素,如 何根据这些因素定制差异化权限和服务。本文针对这些问题 展开讨论。1.2技术思路 本文收集国关图书馆的借阅数据,通过对历史数据的挖 掘和分析找出影响读者借阅需求的若干因素,依靠这些因素 进行借阅权限细分。具体地,本文借助于SPSS Clementine 工具中的决策树挖掘方法对数据进行分析,借助于挖掘得到 的决策树识别影响读者借阅量的主要因素,对借阅量按借阅 频度进行分级,并构建一个判定用户借阅频度的决策树分类 模型,然后基于决策树分类模型,给出针对国关图书馆读者 的借阅权限建议。具体技术思路如图1所示。 2具体的实现方案 2. 1数据源 数据源于国关图书馆金盘系统Oracle数据库,主要涉 及原始数据库三个表、、。其中流通日志表记录读者每次到 馆的一项事务。笔者利用这三张表进行连接,从流通日志表 抽取2009-2010完整一学年的数据,抽取后的数据存储在 Excel表中,命名为(格式见表2),该表

注意事项

本文(SPSSClementine决策树建模在图书馆中应用)为本站会员(aaakkpc)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开