(第9篇)大数据的的超级应用——数据挖掘-推荐

时间:2020-02-25 08:53来源:计算机教程
数据挖掘,不知何时开始成为一个时髦的辞藻。似乎说出这四个字就是专业的象征,但究竟什么是数据挖掘呢?当然不是秀名词、堆方法。在此,尝试用三个通俗的例子,抛砖引玉的介

数据挖掘,不知何时开始成为一个时髦的辞藻。似乎说出这四个字就是专业的象征,但究竟什么是数据挖掘呢?当然不是秀名词、堆方法。在此,尝试用三个通俗的例子,抛砖引玉的介绍数据挖掘:

分享一套今年最新Hadoop大数据教程和100道Hadoop大数据必会面试题。

1. 甲每天中午都到同一个餐馆吃饭,连续吃了一周,每次都点同样的一道菜,当他再一次来到这餐馆时,突然换了另外一道菜。那么等这位顾客再一次光顾时,是应该推荐他之前每天都点的呢?还是推荐另外那道?抑或是其他什么?

因为链接经常被和谐,需要的朋友请 加微信 ganshiyun666 来获取最新下载链接,注明“OSC”

解读:数据挖掘可以理解为在获取更多资讯的同时,进行下一步的预测。然而,对于数据并不丰富的情况,数据挖掘则会因为资讯不足而难以实现。如同上例那样,这位顾客点什么菜,很有可能取决于天气、用餐时间、甚至是否存在特价菜等情况,而上述例子的描述中显然没有提供这些要素,做出统计推断的风险过大,不能做出判断。

 

2. 有一个暗箱,里面有若干个黑球和白球,某人从箱子中无放回的抽取了3次,每次都是黑球,这人想干什么?A.该人就是喜欢黑球,想收藏;B.该人一心想拿到白球,不信自己点背拿不到。该选择哪一个答案呢?

教程已帮助300 人成功转型Hadoop开发,90%起薪超过20K,工资比之前翻了一倍。

解读:显然,对上题做出个选择最好的方式就是——随机的一猜。我们完全不知道这哥们为什么要拿球,更不知道他后面会不会再取,何谈判断?如果,存在着一种用户场景假设:连续抽取颜色一样的球会中奖,用户在碰运气。那么,显而易见可以判断出:该用户不会再抽取,因为对他而言,一切都已经结束。数据挖掘是基于场景假设,由目标进行驱动的统计分析,没有场景假设,即便能有数据上面的线索,也不能得出对业务有帮助的推论。

百度Hadoop核心架构师亲自录制

vnsc5858威尼斯城官网,3. 有位朋友A很喜欢看电影,他罗列了自己喜欢看的50部电影。像这样的朋友有1000个,当然他们各自所罗列的电影不同。那么,该为A君推荐什么样的电影呢?思路:每部电影都有一个分类,基于某个枚举表,为用户推荐喜欢类型的电影。思路:用户所罗列的电影分别聚类,A君喜欢的可能会分成10类,而其他1000人所喜欢也会分类。为A君推荐其他1000人中分类与A最接近,且A没有观赏过的电影。你选择哪一个?

内容包括0基础入门、Hadoop生态系统、真实商业项目实战3大部分。其中商业案例可以让你接触真实的生产环境,训练自己的开发能力。

解读:数据挖掘是一个利用大规模数据的动态过程,在大数据集下,模型不断的自我学习,使得算法精度不断提高,诚如上述所言的电影分享,1000个用户分别贡献的数据,在大数据集下进行分类模型的迭代更新,当精度达到并超过某一水准时,为用户提供同类别或类别接近的电影。人工维护的枚举表虽然会无比精准,但成本远非机器那样高效。如果把数据挖掘当做枚举表的对接,那么从根源上就有了偏差,没有发挥出大数据的功效。

部分视频截图展示

通过上述三个例子,我们可以如此总结数据挖掘:利用大数据集,在场景假设明确的情况下,动态的利用数据自学习来完善统计推断模型,以达到某一精度水平。

vnsc5858威尼斯城官网 1

编辑:计算机教程 本文来源:(第9篇)大数据的的超级应用——数据挖掘-推荐

关键词: