北京华网天下

学会使用百度与 Google，参考官方文档，让 Hadoop 跑起来

2024-11-05

来源：网络整理

对于大数据开发初学者：首先介绍

1学习百度和

不管遇到什么问题，先尝试自己寻找并解决。

第一选择，如果打不通就用百度（ps现在度娘基本会帮忙解决所有问题）。

2、参考资料优先考虑官方文件。

你可以在网上查一些资料。如果你觉得顺眼并且能看懂那就最好了。但官方文档毕竟是首选，但是英语要求比较高，所以小编觉得有道是个好东西。

3 我们先开始跑步

可以说是大数据存储和计算的鼻祖。现在大多数开源大数据框架都依赖它或者与其很好兼容。

对此，您需要弄清楚以下几点：

1.0

2.0

分布式文件系统

纱

查阅资料，自己搭建。如果你能让它运行起来，它会给你很大的信息（ps.这是一个艰难而漫长的过程，请坚持）。

建议先使用安装包命令行安装，不要使用管理工具安装。

另外：.0就知道了，现在我们都用2.0了。

4 尝试使用

HDFS目录操作命令；

上传、下载文件命令；

提交并运行示例程序；

打开WEB界面，查看作业运行状态，查看作业运行日志。

了解系统日志在哪里。

5 是时候了解它们是如何工作的了

：如何分而治之；

HDFS：数据在哪里以及什么是副本？

Yarn 到底是什么以及它能做什么；

你在干什么？

这个过程也需要时间，没有人敢说自己能在短时间内消化掉这些东西。

6 自己写一个程序

请大家按照例子自己写一个程序（也可以复制，我自己也复制了一个）。

打包并提交运行。

如果你没有编程经验，这一步会给你带来很大的问题，但是可以使用。

一开始会觉得困难，但一定要坚持，坚持就是胜利！我还推荐一个网站：——程序员的梦想工厂。里面很多基础视频都是免费的（你懂的），正好满足了小伙伴们的需求。