南开《大数据导论》20春期末考核答案
《大数据导论》20春期末考核-00001 试卷总分:100得分:70 一、单选题(共10道试题,共20分) 1. 大数据的特点不包含 A. 数据体量大 B. 价值密度高 C. 处理速度快 D. 数据不统一 答案:D 2. PaaS是()的简称 A. 软件即服务 B. 平台即服务 C. 基础设施即服务 D. 硬件即服务 答案:B 3.laaS是()的简称 A. 软件即服务 B. 平台即服务 C. 基础设施即服务 D. 硬件即服务 答案:C 4. 购物篮问题是##的典型案例 A. 数据变换 B. 关联规则挖掘 C. 数据分类 答案:B 5. 基础设施即服务的英文简称是 A. IaaS B. PaaS C. SaaS 答案:A 6. 数据清洗的方法不包括 A. 缺失值处理 B. 噪声数据清除 C. 一致性检查 D. 重复数据记录处理 答案:D 以下哪项不是数据可视化工具的特性() A. 实时性 B. 简单操作 C. 更丰富的展现 D. 仅需一种数据支持方式即可 答案:D 7. 下列哪个工具常用来开发移动友好地交互地图() A. Leaflet B. Visual.ly C. BPizza Pie Charts D. Gephi 答案:A 9.SAN 是一种() A. 存储设备 B. 专为数据存储而设计构建的网络 C. 光纤交换机 D. HBA 答案:B 10. GFS中的文件切分成()的块进行存储 A. 32MB B. 64MB C. 128MB D. 1G 答案:B 二、多选题(共10道试题,共20分) 11. 数据预处理的过程主要是 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据规约 答案:ABCD 12. 大数据时代预测人类移动行为的数据特点是 A. 多样化 B. 数据量大 C. 维数高 D. 变化快 答案:BCD 13. 下列属于传统统计学展示方法的是() 柱状图 A. 饼状图 B. 曲线图 C. 网络图 答案:ABC 14. 百度大数据引擎主要包含三大组件() A. 开放云 B. 数据工厂 C. 百度大脑。 答案:ABC 15. 去除噪声使得数据光滑的技术主要有: A. 分箱 B. 回归 C. 离群点分析 答案:ABC 16. 大数据存储的特点与挑战有() A. 容量问题 B. 延迟问题 C. 安全问题 D. 成本问题 答案:ABCD 17. 大数据在医疗中的应用有() A. 流行性疾病预防 B. 慢性病健康管理 C. 临床决策支持 D. 医疗器械研发 答案:ABCD 18. 医疗大数据的来源主要包括() A. 制药企业/生命科学 B. 临床医疗/实验室数据 C. 费用报销/利用率 D. 健康管理/社交网络 答案:ABCD 19. 数据分析的类型根据数据分析深度可以分为() A. 描述性分析 B. 预测性分析s 规则性分析 20. 数据处理的两种方法是#札## A. 批处理 B. 流处理 C. 单个处理 D. 交叉处理 答案:AB 三、判断题(共15道试题,共30分) 21. 所有关系型数据中的数据全部为结构化数据。半结构化数据就是介于完全结构化数据和 完全无结构化的数据之间的数据。 答案:正确 22. 关联分析是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是 有潜在关联的信息或知识的过程。 答案:正确 23. 数据的大量聚集,使得黑客一次成功的攻击能够获得更多的数据,无形中降低了黑客的进 攻成本,增加了 “收益率“。 答案:正确 24. 数据隐私和安全是大数据发展面临的挑战 答案:正确 25. 用户可以感知不同属性之间的相关性,过滤掉噪声和不相关的轨迹,用于进一步调查有趣 的案例。分析人员可以交互式地逐步优化设置以改进结果。 答案:正确 26. 在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面 也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的 商业利益。 答案:正确 27. 频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集。 答案:正确 28. Twitter作为主流社交网络平台,不仅仅是一个海量公共数据集,它还是一个带有时间刻度 的海量公共数据集一一用于捕捉特定时间中(在一些情况下,也是在特定空间中)数百万人关 于所有主题事项的想法。 答案:正确 29.Spark的亮点是充分利用内存承载工作集,而且能保证容错。 答案:正确 30. Apriori算法扫描数据库的次数等于最大频繁项集的项数。 答案:正确 31. 高质量的数据是能够满足应用需求的数据。 答案:正确 32. 离群点检测的任务是识别特征显著不同于其他数据的观测值 答案:正确 33. 数据分析是大数据发展面临的挑战 答案:正确 34. 百度地图春节人口迂徙大数据.在业界首次实现了全程、动态、即时直观地展现中国春节 前后人口大迁徙的轨迹与特征。 答案:正确 35. 用一个函数拟合数据来光滑数据称为回归。 答案:正确 四、简答题(共2道试题,共12分) 36. 简述云计算的体系架构分层及每层的含义。 答案:云计算可以按需提供弹性资源,它的表现形式是一系列服务的集合。<br>结合当前云 计算的应用与研究,其体系架构可分为核心服务、服务管理、用户访问接口三层。<br>l) 核心服务层将硬件基础设施、软件运行环境、应用程序抽象成服务,这些服务具有可靠性强、 可用性高、规模可伸缩等特点,满足多样化的应用需求。<br>2)服务管理层为核心服务提 供支持,进一步确保核心服务的可靠性、可用性与安全性。<br>3)用户访问接口层实现端 到云的访问。<br><br> 37. 简述数据可视化的流程和步骤。 答案:数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可 视化应用4个步骤。<br>l)数据获取<br>数据获取的形式多种多样,大致可以分为主动式 和被动式两种。主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数 据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供 数据来源,如电子商务网站、网络论坛等。<br>2)数据处理<br>数据处理是指对原始的数 据进行分析、预处理和计算等步骤。数据处理的目标是保证数据的准确性、可用性等o<br>3) 可视化模式<br>可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列 分析、网络结构、电子地图等。可视化模式的选取决定了可视化方案的雏形。<br>4)可视 化应用<br>可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示, 通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。可视化界面也 可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的 计算实验,生产系