大数据处理技术研究
下载后可任意编辑 郑州轻工业学院 课程设计说明书 题目: 大数据处理技术讨论 姓 名: 王超 田启森 院 (系): 计算机与通信工程 专业班级: 计算机科学与技术 学 号: 541007010138 541007010137 指导老师: 钱慎一 成 绩: 时间: 2024年6月 26 日至 2024 年 6 月27日 目录 1.摘要:4 2. 大数据概况;4 3. 大数据定义:5 4. 大数据技术的进展:5 5. 大数据技术组成:8 5.1 分析技术8 5.1.1 可视化分析9 5.1.2 数据挖掘算法9 5.1.3 预测分析能力9 5.1.4 语义引擎9 5.1.5 数据质量和数据管理9 5.2 存储数据库10 5.3 分布式计算技术11 6. Hadoop--大数据处理的核心技术13 6.1 Hadoop的组成13 6.2 Hadoop的优点:16 6.2.1 高可靠性。16 6.2.2 高扩展性。17 6.2.3 高效性。17 6.2.4 高容错性。17 6.3 Hadoop的不足17 6.4 主要商业性“大数据”处理方案18 6.4.1 IBM InfoSphere大数据分析平台18 6.4.2 Or a c l e Bi g Da t aApplianc19 6.4.3 Mi c r o s o f t S QLServer19 6.4.4 Sybase IQ20 6.5 其他“大数据”解决方案20 6.5.1 EMC20 6.5.2 BigQuery20 6.6 “大数据”与科技文献信息处理21 7. 大数据处理技术进展前景:21 7.1 大数据复杂度降低21 7.2 大数据细分市场22 7.3 大数据开源22 7.4 Hadoop将加速进展22 7.5 打包的大数据行业分析应用22 7.6 大数据分析的革命性方法出现23 7.7 大数据与云计算:深度融合23 7.8 大数据一体机陆续发布23 8 结语;23 9 参考文献:23 1. 摘要: 大数据浪潮汹涌来袭,与互联网的发明一样,这绝不仅仅是信息技术领域的革命,更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器。 2. 大数据概况; 大数据,IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。 数据技术进展历史如图一所示: 图一 3. 大数据定义: “大数据”是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。IBM将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生的价值(Value)。如图二; 图二 4. 大数据技术的进展: 大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值,而且未来急剧增长的数据迫切需要寻求新的处理技术手段。如图三所示: 图三 在“大数据”(Big data)时代,通过互联网、社交网络、物联网,人们能够及时全面地获得大信息。同时,信息自身存在形式的变化与演进,也使得作为信息载体的数据以远超人们想象的速度迅速膨胀。 云时代的到来使得数据制造的主体由企业逐渐转向个体,而个体所产生的绝大部分数据为图片、文档、视频等非结构化数据。信息化技术的普及使得企业更多的办公流程通过网络得以实现,由此产生的数据也以非结构化数据为主。估计到2024年,非结构化数据将达到互联网整个数据量的75%以上。用于提取智慧的“大数据”,往往是这些非结构化数据。传统的数据仓库系统、BI、链路挖掘等应用对数据处理的时间要求往往以小时或天为单位。但“大数据”应用突出强调数据处理的实时性。在线个性化推举、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级。 全球技术讨论和咨询公司Gartner将“大数据”技术列入2024年对众多公司和组织机构具有战略意义的十大技术与趋势之一,而其他领域的讨论,如云计算、下一代分析、内存计算等也都与“大数据”的讨论相辅相成。Gartner在其新兴技术成熟度曲线中将“大数据”技术视为转型技术,这意味着“大数据”技术将在未来3—5年内进入主流。 而 “大数据”的多样性决定了数据采集来源的复杂性,从智能传感器到社交网络数据,从声音图片到在线交易数据,可能性是无穷无尽的。选择正确的数据来源并进行交叉分析可以为企业制造最显著的利益。随着数据源的爆发式增长,数据的多样性成为“大数据”应用亟待解决的问题。例如如何实时地及通过各种数据库管理系统来安全地访问数据,如何通过优化存储策略,评估当前的数据存储技术并改进、加强数据存储能力,最大限度地利用现有的存储投资。从某种意义上说,数据将成为企业的核心资产。 “大数据”不仅是一场技术变革,更是一场商业模式变革。在“大数据”概念提出之前,尽管互联网为传统企业提供了一个新的销售渠道,但总体来看,二者平行进展,鲜有交集。我们可以看到,无论是Google通过分析用户个人信息,根据用户偏好提供精准广告,还是Facebook将用户的线下社会关系迁移在线上,构造一个半真实的实名帝国,但这些商业和消费模式仍不能脱离互联网,传统企业仍无法嫁接到互联网中。同时,传统企业通过传统的用户分析工具却很难获得大范围用户的真实需求。 企业从大规模制造过渡到大规模定制,必须掌握用户的需求特点。在互联网时代,这些需求特征往往是在用户不经意的行为中透露出来的。通过对信息进行关联、参照、聚类、分类等方法分析,才能得到答案。 “大数据”在互联网与传统企业间建立一个交集。它推动互联网企业融合进传统企业的供应链,并在传统企业种下互联网基因。传统企业与互联网企业的结合,网民和消费者的融合,必将引发消费模式、制造模式、管理模式的巨大变革。 大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的进展,相关技术呈现百花齐放局面,并在互联网应用领域崭露头角,具体情况如下图四所示: 图四 大数据将带来巨大的技术和商业机遇,大数据分析挖掘和利用将为企业带来巨大的商业价值,而随着应用数据规模急剧增加,传统计算面临严重挑战,大规模数据处理和行业应用需求日益增加和迫切出现越来越多的大规模数据处理应用需求