对于大数据开发初学者:首先介绍
1学习百度和
不管遇到什么问题,先尝试自己寻找并解决。
第一选择,如果打不通就用百度(ps现在度娘基本会帮忙解决所有问题)。
2、参考资料优先考虑官方文件。
你可以在网上查一些资料。如果你觉得顺眼并且能看懂那就最好了。但官方文档毕竟是首选,但是英语要求比较高,所以小编觉得有道是个好东西。
3 我们先开始跑步
可以说是大数据存储和计算的鼻祖。现在大多数开源大数据框架都依赖它或者与其很好兼容。
对此,您需要弄清楚以下几点:
1.0
2.0
分布式文件系统
纱
查阅资料,自己搭建。如果你能让它运行起来,它会给你很大的信息(ps.这是一个艰难而漫长的过程,请坚持)。
建议先使用安装包命令行安装,不要使用管理工具安装。
另外:.0就知道了,现在我们都用2.0了。
4 尝试使用
HDFS目录操作命令;
上传、下载文件命令;
提交并运行示例程序;
打开WEB界面,查看作业运行状态,查看作业运行日志。
了解系统日志在哪里。
5 是时候了解它们是如何工作的了
:如何分而治之;
HDFS:数据在哪里以及什么是副本?
Yarn 到底是什么以及它能做什么;
你在干什么?
你在干什么?
这个过程也需要时间,没有人敢说自己能在短时间内消化掉这些东西。
6 自己写一个程序
请大家按照例子自己写一个程序(也可以复制,我自己也复制了一个)。
打包并提交运行。
如果你没有编程经验,这一步会给你带来很大的问题,但是可以使用。
一开始会觉得困难,但一定要坚持,坚持就是胜利!我还推荐一个网站:——程序员的梦想工厂。里面很多基础视频都是免费的(你懂的),正好满足了小伙伴们的需求。