Mahout实现的分类算法为:
随机梯度下降(SGD)
贝叶斯分类
在线学习算法(在线被动攻击)
隐马尔可夫模型(HMM)
- 决策森林(随机森林,DF)
示例1:使用位置作为预测变量
使用合成数据的简单示例展示了如何选择预测变量,以便Mahout 模型准确预测所需的目标变量。
上图是过去数据的总结。假设您正在搜索一个填充颜色的形状。 color-fill 是目标变量。
特征可以被认为是包括形状和位置的预测变量。
位置似乎适合用作预测变量。水平(x) 坐标可能就足够了。
形状似乎并不重要。
显然,颜色填充有两种可能的值:实心或无填充。
现在我们需要选择用作预测变量的特征。您能正确描述哪些特征?
首先排除颜色填充(它是目标变量)。您可以使用位置或形状作为变量。
位置可以用x 和y 坐标来描述。您可以根据数据表为每个样本创建一条记录。该记录包含感兴趣的目标变量和预测变量的字段。
示例2:不同的数据需要不同的预测变量
再看看另一组历史数据,它与之前的数据具有相同的特征。
但是,在这种情况下,x 坐标和y 坐标都不会影响符号是否填充颜色的预测。
位置不再有用,但形状现在是一个有用的功能。
选作预测器的特征(形状)具有三个值(圆形、三角形、方形)。可以引入方向来区分这些形状(向上的三角形和向下的三角形)。
不同的算法有各自的优点
以前面的例子为证。
在示例1 中,训练算法必须使用x 坐标位置来确定颜色填充。在示例2中,形状更方便。
点的x坐标点位置是连续变量,所需算法可以使用连续变量。
Mahout、SGD 和随机森林技术可以使用连续变量。
朴素贝叶斯和补充朴素贝叶斯算法不能使用连续变量。
并行/串行算法权衡
并行算法具有显着的开销,并且在开始处理样本之前需要时间来设置计算环境。
对于一些中等大小的数据集,串行算法可能不仅足够,而且甚至可能是首选。
这种权衡通过比较假设的串行和并行可扩展算法的执行时间的图表来说明。
锯齿状下降是由于新机器的增加
版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。