Mahout主要包含的算法:
频繁模式挖掘:挖掘数据中频繁出现的项集。
聚类:将诸如文本,文档之类的数据分成局部相关的组。
分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分类。
推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物。
频繁项集的挖掘:利用一个项集去识别经常一起出现的项目。
数据挖掘:
数据挖掘是从大量数据中提取或“挖掘”知识
数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习
数据挖掘涉及多学科技术的集成,包括数据库技术、统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息提取、图象与信号处理和空间数据分析
下图我们来看看数据挖掘的流程:
数据挖掘的流程
数据挖掘系统的组成
数据库、数据仓库、或其它信息库
数据库或数据仓库服务器
知识库
数据挖掘引擎
模式评估模块
图形用户界面
下面这张图能够更好的帮助我们理解:
数据挖掘的系统组成
数据挖掘常用的方法:
数据挖掘任务可以分两类: 描述和预测
2. 特征分析
从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征
3.关联规则
描述数据库中数据项之间所存在的关系的规则
4.变化和偏差分析
偏差分析是探测数据现状、历史记录或标准之间的显著变化和偏离
偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等
5.分类和预测
6.回归分析
7.聚类
本人热爱技术,喜欢交流学习,有什么前瞻新技术大家一起加群(Q):131322610 沟通学习
版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除