Cómo instalar Apache Hadoop en Debian 9 Stretch

En este tutorial, le mostraremos cómo instalar Apache Hadoop en Debian 9 Stretch. Para aquellos de ustedes que no sabían, Apache Hadoop es un marco de código abierto que se utiliza para el almacenamiento distribuido, así como para el procesamiento distribuido de grandes datos en grupos de computadoras que se ejecutan en hardware básico. Hadoop almacena datos en el Sistema de archivos distribuidos de Hadoop (HDFS) y el procesamiento de estos datos se realiza mediante MapReduce. YARN proporciona una API para solicitar y asignar recursos en el clúster de Hadoop.

Este artículo asume que tiene al menos un conocimiento básico de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y se supone que está ejecutando en la cuenta raíz, si no, es posible que deba agregar ‘ sudo ‘ a los comandos para obtener privilegios de root. Te mostraré la instalación paso a paso de Apache Hadoop en un servidor Debian 9 (Stretch).

requisitos previos

  • Un servidor que ejecuta uno de los siguientes sistemas operativos: Debian 9 (Stretch).
  • Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
  • Acceso SSH al servidor (o simplemente abra la Terminal si está en una computadora de escritorio).
  • UN non-root sudo user o acceder a la root user . Recomendamos actuar como un non-root sudo user sin embargo, puede dañar su sistema si no tiene cuidado al actuar como raíz.

Instalar Apache Hadoop en Debian 9 Stretch

Paso 1. Antes de instalar cualquier software, es importante asegurarse de que su sistema esté actualizado ejecutando lo siguiente apt-get comandos en la terminal:

                      apt-get update
apt-get upgrade
                    

Paso 2. Instalación de Java (OpenJDK).

Apache Hadoop requiere la versión 8 de Java y superior. Por lo tanto, puede optar por instalar OpenJDK u Oracle JDK:

  • Instale Java JDK 8 en Debian:
                      [email protected] ~# java -version
java version "1.8.0_192"
Java(TM) SE Runtime Environment (build 1.8.0_192-b02)
Java HotSpot(TM) 64-Bit Server VM (build 25.74-b02, mixed mode)
                    

Paso 3. Instalación Apache Hadoop en Debian 9.

Para evitar problemas de seguridad, recomendamos configurar un nuevo grupo de usuarios de Hadoop y una cuenta de usuario para manejar todas las actividades relacionadas con Hadoop, siguiendo los comandos:

                      sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser
                    

Después de crear el usuario, también se requiere configurar ssh basado en clave en su propia cuenta. Para ello utilice ejecutar los siguientes comandos:

                      su - hadoopuser
ssh-keygen -t rsa -P ""
cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys
chmod 600 authorized_keys
ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1
ssh slave-1
                    

A continuación, descargue el última versión estable de Apache Hadoop al momento de escribir este artículo es la versión 2.8.1:

                      wget https://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
tar xzf hadoop-3.1.1.tar.gz
mv hadoop-3.1.1 hadoop
                    

Paso 4. Entorno de configuración Apache Hadoop.

Configuración de las variables de entorno. Editar ~/.bashrc y agregue los siguientes valores al final del archivo:

                      export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
                    

Aplique variables ambientales a la sesión que se está ejecutando actualmente:

                      source ~/.bashrc
                    

Ahora edita $HADOOP_HOME/etc/hadoop/hadoop-env.sh archivo y establezca la variable de entorno JAVA_HOME:

                      export JAVA_HOME=/usr/jdk1.8.0_192/
                    

Hadoop tiene muchos archivos de configuración, que deben configurarse según los requisitos de su infraestructura de Hadoop. Comencemos con la configuración básica del clúster de un solo nodo de Hadoop:

                      cd $HADOOP_HOME/etc/hadoop
                    

Editar core-site.xml :

                      <configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>
                    

Editar hdfs-site.xml :

                      <configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>
                    

Editar mapred-site.xml :

                      <configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>
                    

Editar yarn-site.xml :

                      <configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>
                    

Ahora formatee namenode usando el siguiente comando, no olvide verificar el directorio de almacenamiento:

                      hdfs namenode -format
                    

Inicie todos los servicios de Hadoop con el siguiente comando:

                      cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh
                    

Debe observar la salida para asegurarse de que intenta iniciar el nodo de datos en los nodos esclavos uno por uno. Para verificar si todos los servicios se iniciaron bien usando ‘ jps ‘ dominio:

                      jps
                    

Paso 5. Configure el Firewall para Apache Hadoop.

Permitir Apache Hadoop a través del cortafuegos:

                      ufw allow 50070/tcp
ufw allow 8088/tcp
ufw reload
                    

Paso 6. Acceso Apache Hadoop.

Apache Hadoop estará disponible en el puerto HTTP 8088 y el puerto 50070 de forma predeterminada. Abra su navegador favorito y vaya a https://yourdomain.com:50070 o https://server-ip:50070 .

¡Felicidades! Ha instalado con éxito Apache Hadoop. Gracias por usar este tutorial para instalar Apache Hadoop en los sistemas Debian 9 Stretch. Para obtener ayuda adicional o información útil, le recomendamos que consulte el oficial Apache Sitio web de Hadoop .

Related Posts