SPSSClementine决策树建模在图书馆中应用

资源ID：53133048 资源大小：93.96KB 全文页数：11页
资源格式： DOCX 下载权限：游客/注册会员 下载费用：10积分【人民币10元】

快捷注册下载

会员登录下载

三方登录下载：

下载资源需要10积分【人民币10元】

邮箱/手机：
温馨提示：	支付成功后，系统会自动生成账号（用户名和密码都是您填写的邮箱或者手机号），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

下载资源需要10积分【人民币10元】

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，既可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰

网站客服

侵权投诉

SPSSClementine决策树建模在图书馆中应用

SPSS Clementine决策树建模在图书馆中应用摘要分析影响读者借阅量的因素，确定不同读者的借阅需求，进而依据需求定制差异化的借阅权限和服务。利用SPSS Clementine挖掘工具，采用C5. 0决策树算法，对国际关系学院图书馆的读者借阅数据进行挖掘，建立读者决策树分类模型，将读者按借阅频度分为活跃读者、一般读者和沉默读者。结果表明，读者身份、专业、年级和性别对借阅量有重要影响，本科大三学生借阅需求较大，大四学生借阅需求小。决策树分类能对图书馆读者进行细分，可为调整读者借阅权限提供理论依据。关键词决策树；分类；图书馆；Clementine；借阅权限中图分类号TP391文献标志码A文章编号 1006-8228 2014 04-30-04 Abstract The facto【s influencing readers borrowing amount are analyzed and different readers borrowing demand are determined. The differential borrowing authority and service are customized. A decision tree classification model of reader borrowing frequency is built with C5. 0 in mining tool of SPSS Clementine. The decision tree classifies readers into three groups activing readers, common readers and silent readers. The mined data come from reader borrowing records of the library of university of international relations. The resuIts show readers identity, major, grade and gender have an important effect on borrowing amount. The borrowing demand of junior students is great, while that of senior students is small. The library readers may be classified by refering to decision tree classification to provide theoretical evident fo【adjusting borrowing authority. Key words decision tree ；classification ； library； Clementine； borrowing authority 0引言数据挖掘能从大量数据中发现有用的知识，目前己成功应用于各个领域。图书馆系统积累了大量读者数据，研究如何将数据挖掘有效地用于图书馆［1-4］,变数据为知识，从而更好地为读者服务，是数据挖掘和图书馆工作者的共同责任。决策树分类是数据挖掘中的一种重要方法，该方法通过对已有数据的学习，识别影响对象分类的若干因素，构建一个决策树分类模型，对对象进行分类。文献［5-6］为决策树在图书馆读者借阅数据中的应用实例，其中文献［5］利用 C4.5算法，对306条读者借阅记录进行了分类建模，利用学历、专业和年级三个属性，构建借阅次数（高/中/低）分级模型，得出的结论为学历是第一决定因素，其次是专业和年级，研究生和大四学生借阅量低等。笔者认为文献［5］挖掘的数据量过小，不具有足够的说服力，且借阅次数分级采取主观划分的方法，缺乏依据。文献［6］利用ID3算法，对 1969条研究生的借阅记录进行了分类建模，利用读者是否为新生、是否为工程类学生、性别和距离图书馆的远近等属性, 构建决策树模型，得出的结论为读者是否为新生为第一决定因素，其次为是否工程类、距离远近和性别，一年级新生离图书馆近的、高年级工科学生为活跃读者等。笔者认为文献［6］的数据只覆盖研究生读者，样本不全，且模型仅从训练数据构建，没有测试数据测试，使模型的普适性受到怀疑。另外，文献［5-6］没有对具体所用挖掘工具的介绍。针对上述研究背景，本文使用SPSS Clementine软件，采用基于C5.0的决策树分类算法，对国关图书馆的4366条读者借阅记录进行建模。建模过程综合考虑读者身份、专业、年级、性别、民族和索书号等因素，构建读者借阅频度决策树分类模型，分析影响读者借阅量的主要因素，给出针对不同读者群的借阅权限分配和服务建议。作为数据挖掘在图书馆的进一步应用探索，本文一方面可为国际关系学院图书馆开展实际业务工作提供帮助；另一方面可为其他高校图书馆开展挖掘实践，提供方法和过程指导。 1需求分析及技术思路 1. 1需求分析国际关系学院图书馆藏书37万余册，服务对象为全校师生员工、家属、成人教育学员、国际大学预科项目PCP学员（Pre-College Program）等。服务的部门涵盖法律系、公共管理系（简称公管）、国际经济系（简称国经）、国际政治系（简称国政）、日语法语系（简称日法）、文化与传播系（简称文传）、信息科技系（简称信科）、英语系共八个系。长期以来，国关图书馆对于读者权限的设定按本科生、研究生和教工划分，见表lo这种划分一是没有结合读者的实际借阅需求，可能造成借阅需求量大的读者权限不足，借阅需求量小的读者权限过剩；二是划分不够细化，没有考虑到读者年级、专业、性别、成绩等因素对借阅量的影响。依据读者的现实个性化需求来确定借阅权限，已成为目前高校图书馆借阅权限改革的方向[7],问题在于影响用户借阅量的因素有哪些，哪些是主要因素，如何确定这些因素，如何根据这些因素定制差异化权限和服务。本文针对这些问题展开讨论。1.2技术思路本文收集国关图书馆的借阅数据，通过对历史数据的挖掘和分析找出影响读者借阅需求的若干因素，依靠这些因素进行借阅权限细分。具体地，本文借助于SPSS Clementine 工具中的决策树挖掘方法对数据进行分析，借助于挖掘得到的决策树识别影响读者借阅量的主要因素，对借阅量按借阅频度进行分级，并构建一个判定用户借阅频度的决策树分类模型，然后基于决策树分类模型，给出针对国关图书馆读者的借阅权限建议。具体技术思路如图1所示。 2具体的实现方案 2. 1数据源数据源于国关图书馆金盘系统Oracle数据库，主要涉及原始数据库三个表、、。其中流通日志表记录读者每次到馆的一项事务。笔者利用这三张表进行连接，从流通日志表抽取2009-2010完整一学年的数据，抽取后的数据存储在 Excel表中，命名为（格式见表2）,该表

注意事项

本文（SPSSClementine决策树建模在图书馆中应用）为本站会员（aaakkpc）主动上传，蚂蚁文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知蚂蚁文库（发送邮件至2303240369@qq.com或直接QQ联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。