蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > DOCX文档下载
 

南开《大数据导论》20春期末考核答案

  • 资源ID:53180962       资源大小:90.41KB        全文页数:9页
  • 资源格式: DOCX        下载权限:游客/注册会员    下载费用:10积分 【人民币10元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要10积分 【人民币10元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

南开《大数据导论》20春期末考核答案

大数据导论20春期末考核-00001 试卷总分100得分70 一、单选题共10道试题,共20分 1. 大数据的特点不包含 A. 数据体量大 B. 价值密度高 C. 处理速度快 D. 数据不统一 答案D 2. PaaS是的简称 A. 软件即服务 B. 平台即服务 C. 基础设施即服务 D. 硬件即服务 答案B 3.laaS是的简称 A. 软件即服务 B. 平台即服务 C. 基础设施即服务 D. 硬件即服务 答案C 4. 购物篮问题是的典型案例 A. 数据变换 B. 关联规则挖掘 C. 数据分类 答案B 5. 基础设施即服务的英文简称是 A. IaaS B. PaaS C. SaaS 答案A 6. 数据清洗的方法不包括 A. 缺失值处理 B. 噪声数据清除 C. 一致性检查 D. 重复数据记录处理 答案D 以下哪项不是数据可视化工具的特性 A. 实时性 B. 简单操作 C. 更丰富的展现 D. 仅需一种数据支持方式即可 答案D 7. 下列哪个工具常用来开发移动友好地交互地图 A. Leaflet B. Visual.ly C. BPizza Pie Charts D. Gephi 答案A 9.SAN 是一种 A. 存储设备 B. 专为数据存储而设计构建的网络 C. 光纤交换机 D. HBA 答案B 10. GFS中的文件切分成的块进行存储 A. 32MB B. 64MB C. 128MB D. 1G 答案B 二、多选题共10道试题,共20分 11. 数据预处理的过程主要是 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据规约 答案ABCD 12. 大数据时代预测人类移动行为的数据特点是 A. 多样化 B. 数据量大 C. 维数高 D. 变化快 答案BCD 13. 下列属于传统统计学展示方法的是 柱状图 A. 饼状图 B. 曲线图 C. 网络图 答案ABC 14. 百度大数据引擎主要包含三大组件 A. 开放云 B. 数据工厂 C. 百度大脑。 答案ABC 15. 去除噪声使得数据光滑的技术主要有 A. 分箱 B. 回归 C. 离群点分析 答案ABC 16. 大数据存储的特点与挑战有 A. 容量问题 B. 延迟问题 C. 安全问题 D. 成本问题 答案ABCD 17. 大数据在医疗中的应用有 A. 流行性疾病预防 B. 慢性病健康管理 C. 临床决策支持 D. 医疗器械研发 答案ABCD 18. 医疗大数据的来源主要包括 A. 制药企业/生命科学 B. 临床医疗/实验室数据 C. 费用报销/利用率 D. 健康管理/社交网络 答案ABCD 19. 数据分析的类型根据数据分析深度可以分为 A. 描述性分析 B. 预测性分析s 规则性分析 20. 数据处理的两种方法是札 A. 批处理 B. 流处理 C. 单个处理 D. 交叉处理 答案AB 三、判断题(共15道试题,共30分) 21. 所有关系型数据中的数据全部为结构化数据。半结构化数据就是介于完全结构化数据和 完全无结构化的数据之间的数据。 答案正确 22. 关联分析是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是 有潜在关联的信息或知识的过程。 答案正确 23. 数据的大量聚集,使得黑客一次成功的攻击能够获得更多的数据,无形中降低了黑客的进 攻成本,增加了 “收益率“。 答案正确 24. 数据隐私和安全是大数据发展面临的挑战 答案正确 25. 用户可以感知不同属性之间的相关性,过滤掉噪声和不相关的轨迹,用于进一步调查有趣 的案例。分析人员可以交互式地逐步优化设置以改进结果。 答案正确 26. 在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面 也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的 商业利益。 答案正确 27. 频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集。 答案正确 28. Twitter作为主流社交网络平台,不仅仅是一个海量公共数据集,它还是一个带有时间刻度 的海量公共数据集一一用于捕捉特定时间中(在一些情况下,也是在特定空间中)数百万人关 于所有主题事项的想法。 答案正确 29.Spark的亮点是充分利用内存承载工作集,而且能保证容错。 答案正确 30. Apriori算法扫描数据库的次数等于最大频繁项集的项数。 答案正确 31. 高质量的数据是能够满足应用需求的数据。 答案正确 32. 离群点检测的任务是识别特征显著不同于其他数据的观测值 答案正确 33. 数据分析是大数据发展面临的挑战 答案正确 34. 百度地图春节人口迂徙大数据.在业界首次实现了全程、动态、即时直观地展现中国春节 前后人口大迁徙的轨迹与特征。 答案正确 35. 用一个函数拟合数据来光滑数据称为回归。 答案正确 四、简答题(共2道试题,共12分) 36. 简述云计算的体系架构分层及每层的含义。 答案云计算可以按需提供弹性资源,它的表现形式是一系列服务的集合。<br>结合当前云 计算的应用与研究,其体系架构可分为核心服务、服务管理、用户访问接口三层。<br>l) 核心服务层将硬件基础设施、软件运行环境、应用程序抽象成服务,这些服务具有可靠性强、 可用性高、规模可伸缩等特点,满足多样化的应用需求。<br>2)服务管理层为核心服务提 供支持,进一步确保核心服务的可靠性、可用性与安全性。<br>3)用户访问接口层实现端 到云的访问。<br><br> 37. 简述数据可视化的流程和步骤。 答案数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可 视化应用4个步骤。<br>l)数据获取<br>数据获取的形式多种多样,大致可以分为主动式 和被动式两种。主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数 据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供 数据来源,如电子商务网站、网络论坛等。<br>2)数据处理<br>数据处理是指对原始的数 据进行分析、预处理和计算等步骤。数据处理的目标是保证数据的准确性、可用性等o<br>3) 可视化模式<br>可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列 分析、网络结构、电子地图等。可视化模式的选取决定了可视化方案的雏形。<br>4)可视 化应用<br>可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示, 通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。可视化界面也 可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的 计算实验,生产系

注意事项

本文(南开《大数据导论》20春期末考核答案)为本站会员(aaakkpc)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开