Mahout的主要算法包括:
频繁模式挖掘:挖掘数据中频繁出现的项目集。
聚类:将文本或文档等数据分组到本地相关的组中。
分类:使用现有的分类文档来训练分类器对未分类的文档进行分类。
推荐引擎(协同过滤):捕获用户行为并发现用户可能喜欢什么。
挖掘频繁出现的项集:使用项集来识别经常一起出现的项。
数据挖掘:
数据挖掘是从大量数据中提取或“挖掘”知识
数据挖掘思想的来源:假设检验、模式识别、人工智能、机器学习
数据挖掘涉及数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息提取、图像和信号处理以及空间数据分析等多学科技术的集成。
我们来看看下图中的数据挖掘过程。
数据挖掘过程
数据挖掘系统的组成
数据库、数据仓库或其他信息存储库
数据库或数据仓库服务器
知识库
数据挖掘引擎
模式评估模块
图形用户界面
下图将帮助您更好地理解:
数据挖掘系统的组成部分
数据挖掘常用的方法:
数据挖掘任务可以分为两类:描述性任务和预测性任务。
2. 特征分析
从数据库中的数据集中提取有关数据的特征表达式。这些特征表达式代表了数据集的整体特征。
3. 协会条款
描述数据库中数据项之间存在的关系的规则
4、变化与偏差分析
偏差分析是检测数据状态、历史或规范的显着变化或偏差。
偏差包括一大类潜在有趣的知识,例如分类中的异常实例、模式的例外以及观察结果与期望的偏差。
5. 分类与预测
6. 回归分析
7. 聚类
我热爱技术,热爱交流和学习。如果您有面向未来的新技术,请加入群(Q):131322610进行交流和学习。
版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。