4. Hadoop搭建总体步骤

4.1. Linux集群环境

  • 三台机器

  • 配置

    • 机器名映射

    • 防火墙和selinux

    • 免秘钥登录

    • 时钟同步

    • JDK

    • MySQL

      • Java:存储业务数据、用户信息、商业信息、订单信息

      • 大数据:用于存储关键性数据

        • 软件元数据

        • 分析的结果

4.2. 节点规划

设计每个进程启动在哪些机器上

  • 整个Hadoop启动的进程

    • HDFS:NameNode,DataNnode

    • YARN:ResourceManager,NodeManager

  • 整个Hadoop启动的进程

    • HDFS:NameNode ,DataNode

    • YARN:ResourceManager,NodeManager

  • 节点规划

    机器

    node1

    node2

    node3

    NameNode

    *

    DataNode

    *

    *

    *

    ResourceManager

    *

    NodeManager

    *

    *

    *

  • 启动和关闭hdfs(未配置环境变量的情况下要去sbin目录下)

    start-dfs.sh
    stop-dfs.sh
    
  • 启动和关闭yarn

    start-yarn.sh
    stop-yarn.sh
    

4.3. Hadoop分布式上安装

  • 解压安装

  • 修改配置:配置文件都在Hadoop的etc/hadoop目录下

    • *-env.sh:用于配置环境变量

      • hadoop-env.sh

        • Hadoop的环境变量,比如声明JAVA_HOME

      • mapred-env.sh

        • MapReduce的环境变量

      • yarn-env.sh

        • YARN的环境变量

    • *-site.xml

      • core-site.xml

        • 配置Hadoop的全局的一些属性

        • 比如端口号、块大小等

      • hdfs-site.xml

        • HDFS的属性配置

        • dfs.replication:配置每个文件块的副本数

      • mapred-site.xml

        • MapReduce的一些属性

        • 比如Web端口

      • yarn-site.xml

    • slaves:用于配置从节点[DataNode、NodeManager]地址

      • 计算节点都与存储节点在同一台机器(DataNode也是NodeManager)

  • 启动服务

    • 第一次启动服务吗,需要格式化

      • 只能在NameNode所在的机器格式化

        
        

      hdfs namenode -format

      
      
    • core-site.xml和hdfs-site.xml配置编写错误,修正后需要重新格式化

    • 启动

      • 启动hdfs

        start-dfs.sh 只能在NN所在的机器启动
        
      • 启动yarn

        start-yarn.sh 只能在RM所在的机器启动
        
    • 端口:

      • HDFS:NameNode启动开放

        • 8020:RPC协议,用于客户端请求服务端,节点之间的远程调用

        • 50070:http协议,用于访问网页

      • YARN:ResourceManager启动开放

        • 8032:RPC协议,用于客户端请求服务端,节点之间的远程调用

        • 8088:http协议,用于访问网页