要让机器学会认识世界,首先要由大数据。 1、特征、标签、属性值
像要判断草莓甜不甜,就先要搜集一些关于草莓的大数据,例如个头较小、色泽鲜艳、质地柔软的草莓是甜的;个头较大、色泽较浅、质地坚硬的草莓是酸的;在机器学习中,大小、色泽和质地都被称为特征(feature)。较小,鲜艳,较软对应的是属性值(attribute value);酸和甜则被称为标签(label)。
机器学习就是要找到特征与标签之间的关系来判断草莓是不是甜的?
标签划分 属性标签
属性标签是变化最小的,例如用户实名认证之后,基于身份信息获取相关:性别,生日,出生年月,年龄,等相关标签。变动频率小,且最具有精准性。
行为标签
行为标签就是用户通过在产品上的一系列操作,基于行为日志分析得出:例如购买能力、消费爱好、季节性消费标签等。在信息
流的APP上,通过相关浏览行为,不断推荐用户感兴趣的内容就是基于该逻辑。
规则标签
根据业务场景需求,配置指定规则,基于规则生成分析结果,例如:
近7天活跃用户:近7天,每天都登录的用户作为规则生成; 丢失用户:六个月内没有任何操作,可以发放高额优惠劵; 潜在用户:使用或产生浏览数据,但是未发生任何交易行为; 这类标签可以基于动态的规则配置,经过计算和分析,生成描述结果,也就是规则标签。
拟合标签
拟合类的标签最具有复杂性,通过用户上述几种标签,智能组合分析,给的预测值,例如:未婚、浏览相关婚礼内容,通过分析预测用户将要举办婚礼,得到一个拟合结果:预测将要结婚。这个预测逻辑也可以反向执行,用户购买婴儿用品:预测已婚已育。
这就是数据时代常说的一句话:用户在某个应用上一通操作之后,算法分析的结果可能比用户对自己的描述还要真实。
2、泛化与过拟合
通过大数据学得模型的过程就是我们常说的学习(learning),
也称为训练(training)。
在学习的过程中,有时候太过认真的认识已有的草莓,会造成无法判断其他草莓甜不甜的状况,这种情况,我们称为过拟合(overfitting)。
往往我们希望学得的模型能很好的认识新的草莓,这种能力,我们称为泛化(generalization)。
一般来说,训练样本越多,模型的泛化能力越好,就越能判断新的草莓是不是甜的。
因篇幅问题不能全部显示,请点此查看更多更全内容