款常用的数据挖掘工具推荐
1212 款常用的数据挖掘工具推荐款常用的数据挖掘工具推荐 数据挖掘工具是使用数据挖掘技术从大型数据集中发现并识别模式的计算机软 件。数据在当今世界中就意味着金钱,但是因为大多数数据都是非结构化的。 因此,拥有数据挖掘工具将成为帮助您获得正确数据的一种方法。 常用的数据挖掘工具常用的数据挖掘工具 1. R R 是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处 理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的 统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的 输入和输出,可实现分支、循环,用户可自定义功能。 2. Oracle 数据挖掘(ODM) Oracle Data Mining 是 Oracle 的一个数据挖掘软件。 Oracle 数据挖掘是在 Oracle 数据库内核中实现的,挖掘模型是第一类数据库对象。Oracle 数据挖掘 流程使用 Oracle 数据库的内置功能来最大限度地提高可伸缩性并有效利用系统 资源。 3. Tableau Tableau 提供了一系列专注于商业智能的交互式数据可视化产品。Tableau 允许 通过将数据转化为视觉上吸引人的交互式可视化(称为仪表板)来实现数据的 洞察与分析。这个过程只需要几秒或几分钟,并且通过使用易于使用的拖放界 面来实现。 5. Scrapy Scrapy,Python 开发的一个快速、高层次的屏幕抓取和 web 抓取框架,用于抓 取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖 掘、监测和自动化测试。 6、Weka Weka 作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机 器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新 的交互式界面上的可视化。 Weka 高级用户可以通过 Java 编程和命令行来调用其分析组件。同时,Weka 也 为普通用户提供了图形化界面,称为 Weka KnowledgeFlow Environment 和 Weka Explorer。和 R 相比,Weka 在统计分析方面较弱,但在机器学习方面要强 得多。 7、RapidMiner Rapid Miner,原名 YALE 又一个学习环境,是一个用于机器学习和数据挖掘实验 的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是世界领先的数据挖 掘开源系统。该工具以 Java 编程语言编写,通过基于模板的框架提供高级分 析。 8、八爪鱼采集器 八爪鱼是一款通用网页数据采集器,使用简单,完全可视化操作;功能强大, 任何网站均可采集,数据可导出为多种格式。 9、KNIME KNIME 是一个基于 Eclipse 平台开发,模块化的数据挖掘系统。它能够让用户可 视化创建数据流(也就常说的 pipeline),选择性的执行部分或所有分解步骤, 然后通过数据和模型上的交互式视图研究执行后的结果。 KNIME 中每个节点都带有交通信号灯,用于指示该节点的状态(未连接、未配 置、缺乏输入数据时为红灯;准备执行为黄灯;执行完毕后为绿灯)。在 KNIME 中有个特色功能——HiLite,允许用户在节点结果中标记感兴趣的记录, 并进一步展开后续探索。 10、Orange Orange 是一个以 Python 语言编写的基于组件的数据挖掘和机器学习软件套 件。它是一个开放源码的数据可视化和分析的新手和专家。数据挖掘可以通过 可视化编程或 Python 脚本进行。它还包含了数据分析、不同的可视化、从散点 图、条形图、树、到树图、网络和热图的特征。 11、IBM SPSS Modeler IBM SPSS Modeler 工具工作台最适合处理文本分析等大型项目,其可视化界面 非常有价值。它允许您在不编程的情况下生成各种数据挖掘算法。它也可以用 于异常检测、贝叶斯网络、CARMA、Cox 回归以及使用多层感知器进行反向传 播学习的基本神经网络。 12、Pentaho Pentaho 为数据集成、业务分析以及大数据处理提供一个全面的平台。使用这 种商业工具,你可以轻松地混合各种来源的数据,通过对业务数据进行分析可 以为未来的决策提供正确的信息引导。 Pentaho 整合了多个开源项目,目标是和商业 BI 相抗衡。它偏向于与业务流程 相结合的 BI 解决方案,侧重于大 中型企业应用。它允许商业分析人员或开发 人员创建报表,仪表盘,分析模型,商业规则和 BI 流程。 12、NLTK NLTK 适用于语言处理任务,因为它可以提供一个语言处理工具,包括数据挖 掘、机器学习、数据抓取、情感分析等各种语言处理任务。而您需要做的只是 安装 NLTK,然后将一个包拖拽到您最喜爱的任务中,您就可以去做其他事了。 因为它是用 Python 语言编写的,你可以在上面建立应用,还可以自定义它的小 任务。 以上介绍的几款软件都是优秀的开源数据挖掘软件,各有所长,同时也各有缺 点。读者可以结合自己的需求来进行选择,或者组合使用多个软件。 本文来自于: 相关阅读: 大数据技术是什么?有哪些特点? 大数据常见开发工具有哪些? 2018 大数据 10 大发展趋势 微博数据采集 淘宝数据采集 今日头条采集 八爪鱼——90 万用户选择的网页数据采集器。 1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化 流程,点击鼠标完成操作,2 分钟即可快速入门。 2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布 流、Ajax 脚本异步加载数据的网页,均可经过简单设置进行采集。 3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大 云采集集群 24*7 不间断运行,不用担心 IP 被封,网络中断。 4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的 基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用 户的需要。