SPSSClementine决策树建模在图书馆中应用
SPSS Clementine决策树建模在图书馆中应 用 摘 要分析影响读者借阅量的因素,确定不同读 者的借阅需求,进而依据需求定制差异化的借阅权限和服 务。利用SPSS Clementine挖掘工具,采用C5. 0决策树算 法,对国际关系学院图书馆的读者借阅数据进行挖掘,建立 读者决策树分类模型,将读者按借阅频度分为活跃读者、一 般读者和沉默读者。结果表明,读者身份、专业、年级和性 别对借阅量有重要影响,本科大三学生借阅需求较大,大四 学生借阅需求小。决策树分类能对图书馆读者进行细分,可 为调整读者借阅权限提供理论依据。 关键词决策树;分类;图书馆;Clementine;借 阅权限 中图分类号TP391文献标志码A文章编号 1006-8228 2014 04-30-04 Abstract The facto【s influencing readers borrowing amount are analyzed and different readers borrowing demand are determined. The differential borrowing authority and service are customized. A decision tree classification model of reader borrowing frequency is built with C5. 0 in mining tool of SPSS Clementine. The decision tree classifies readers into three groups activing readers, common readers and silent readers. The mined data come from reader borrowing records of the library of university of international relations. The resuIts show readers identity, major, grade and gender have an important effect on borrowing amount. The borrowing demand of junior students is great, while that of senior students is small. The library readers may be classified by refering to decision tree classification to provide theoretical evident fo【adjusting borrowing authority. Key words decision tree ;classification ; library; Clementine; borrowing authority 0引言 数据挖掘能从大量数据中发现有用的知识,目前己成功 应用于各个领域。图书馆系统积累了大量读者数据,研究如 何将数据挖掘有效地用于图书馆[1-4],变数据为知识,从 而更好地为读者服务,是数据挖掘和图书馆工作者的共同责 任。 决策树分类是数据挖掘中的一种重要方法,该方法通过 对已有数据的学习,识别影响对象分类的若干因素,构建一 个决策树分类模型,对对象进行分类。文献[5-6]为决策树 在图书馆读者借阅数据中的应用实例,其中文献[5]利用 C4.5算法,对306条读者借阅记录进行了分类建模,利用学 历、专业和年级三个属性,构建借阅次数(高/中/低)分级 模型,得出的结论为学历是第一决定因素,其次是专业和 年级,研究生和大四学生借阅量低等。笔者认为文献[5]挖 掘的数据量过小,不具有足够的说服力,且借阅次数分级采 取主观划分的方法,缺乏依据。文献[6]利用ID3算法,对 1969条研究生的借阅记录进行了分类建模,利用读者是否为 新生、是否为工程类学生、性别和距离图书馆的远近等属性, 构建决策树模型,得出的结论为读者是否为新生为第一决 定因素,其次为是否工程类、距离远近和性别,一年级新生 离图书馆近的、高年级工科学生为活跃读者等。笔者认为文 献[6]的数据只覆盖研究生读者,样本不全,且模型仅从训 练数据构建,没有测试数据测试,使模型的普适性受到怀疑。 另外,文献[5-6]没有对具体所用挖掘工具的介绍。 针对上述研究背景,本文使用SPSS Clementine软件, 采用基于C5.0的决策树分类算法,对国关图书馆的4366条 读者借阅记录进行建模。建模过程综合考虑读者身份、专业、 年级、性别、民族和索书号等因素,构建读者借阅频度决策 树分类模型,分析影响读者借阅量的主要因素,给出针对不 同读者群的借阅权限分配和服务建议。作为数据挖掘在图书 馆的进一步应用探索,本文一方面可为国际关系学院图书馆 开展实际业务工作提供帮助;另一方面可为其他高校图书馆 开展挖掘实践,提供方法和过程指导。 1需求分析及技术思路 1. 1需求分析 国际关系学院图书馆藏书37万余册,服务对象为全校 师生员工、家属、成人教育学员、国际大学预科项目PCP学 员(Pre-College Program)等。服务的部门涵盖法律系、 公共管理系(简称公管)、国际经济系(简称国经)、国际政 治系(简称国政)、日语法语系(简称日法)、文化与传播系 (简称文传)、信息科技系(简称信科)、英语系共八个系。 长期以来,国关图书馆对于读者权限的设定按本科生、 研究生和教工划分,见表lo这种划分一是没有结合读者的 实际借阅需求,可能造成借阅需求量大的读者权限不足,借 阅需求量小的读者权限过剩;二是划分不够细化,没有考虑 到读者年级、专业、性别、成绩等因素对借阅量的影响。依 据读者的现实个性化需求来确定借阅权限,已成为目前高校 图书馆借阅权限改革的方向[7],问题在于影响用户借阅 量的因素有哪些,哪些是主要因素,如何确定这些因素,如 何根据这些因素定制差异化权限和服务。本文针对这些问题 展开讨论。1.2技术思路 本文收集国关图书馆的借阅数据,通过对历史数据的挖 掘和分析找出影响读者借阅需求的若干因素,依靠这些因素 进行借阅权限细分。具体地,本文借助于SPSS Clementine 工具中的决策树挖掘方法对数据进行分析,借助于挖掘得到 的决策树识别影响读者借阅量的主要因素,对借阅量按借阅 频度进行分级,并构建一个判定用户借阅频度的决策树分类 模型,然后基于决策树分类模型,给出针对国关图书馆读者 的借阅权限建议。具体技术思路如图1所示。 2具体的实现方案 2. 1数据源 数据源于国关图书馆金盘系统Oracle数据库,主要涉 及原始数据库三个表、、。其中流通日志表记录读者每次到 馆的一项事务。笔者利用这三张表进行连接,从流通日志表 抽取2009-2010完整一学年的数据,抽取后的数据存储在 Excel表中,命名为(格式见表2),该表