首页 > 自考资讯 > 自考知识

机器学习和数据挖掘的分布式计算框架Mahout(一)

头条共创 2024-08-11

Mahout主要包含的算法:

频繁模式挖掘:挖掘数据中频繁出现的项集。

聚类:将诸如文本,文档之类的数据分成局部相关的组。

分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分类。

推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物。

频繁项集的挖掘:利用一个项集去识别经常一起出现的项目。

数据挖掘:

数据挖掘是从大量数据中提取或“挖掘”知识

数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习

数据挖掘涉及多学科技术的集成,包括数据库技术、统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息提取、图象与信号处理和空间数据分析

下图我们来看看数据挖掘的流程:

数据挖掘的流程

数据挖掘系统的组成

数据库、数据仓库、或其它信息库

数据库或数据仓库服务器

知识库

数据挖掘引擎

模式评估模块

图形用户界面

下面这张图能够更好的帮助我们理解:

数据挖掘的系统组成

数据挖掘常用的方法:

数据挖掘任务可以分两类: 描述和预测

2. 特征分析

从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征

3.关联规则

描述数据库中数据项之间所存在的关系的规则

4.变化和偏差分析

偏差分析是探测数据现状、历史记录或标准之间的显著变化和偏离

偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等

5.分类和预测

6.回归分析

7.聚类

本人热爱技术,喜欢交流学习,有什么前瞻新技术大家一起加群(Q):131322610 沟通学习

版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除

猜你喜欢