Cómo instalar Apache Hadoop en Ubuntu 20.04 LTS

En este tutorial, le mostraremos cómo instalar Apache Hadoop en Ubuntu 20.04 LTS. Para aquellos de ustedes que no sabían, Apache Hadoop es un marco de código abierto que se utiliza para el almacenamiento distribuido, así como para el procesamiento distribuido de grandes datos en grupos de computadoras que se ejecutan en hardware básico. En lugar de confiar en el hardware para brindar alta disponibilidad, la biblioteca en sí está diseñada para detectar y manejar fallas en la capa de la aplicación, por lo que brinda un servicio de alta disponibilidad sobre un grupo de computadoras, cada una de las cuales puede ser propensa a fallas.

Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y se supone que está ejecutando en la cuenta raíz, si no, es posible que deba agregar ‘ sudo ‘ a los comandos para obtener privilegios de root. Te mostraré la instalación paso a paso de Flask en Ubuntu 20.04 (Focal Fossa). Puede seguir las mismas instrucciones para Ubuntu 18.04, 16.04 y cualquier otra distribución basada en Debian como Linux Mint.

requisitos previos

  • Un servidor que ejecuta uno de los siguientes sistemas operativos: Ubuntu 20.04, 18.04, 16.04 y cualquier otra distribución basada en Debian como Linux Mint.
  • Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
  • Acceso SSH al servidor (o simplemente abra la Terminal si está en una computadora de escritorio).
  • UN non-root sudo user o acceder a la root user . Recomendamos actuar como un non-root sudo user sin embargo, puede dañar su sistema si no tiene cuidado al actuar como root.

Instalar Apache Hadoop en Ubuntu 20.04 LTS fosa focal

Paso 1. Primero, asegúrese de que todos los paquetes de su sistema estén actualizados ejecutando lo siguiente apt Comandos en la terminal.

                      sudo apt update
sudo apt upgrade
                    

Paso 2. Instalación de Java.

Para ejecutar Hadoop, debe tener Java 8 instalado en su máquina. Para hacerlo, use el siguiente comando:

                      sudo apt install default-jdk default-jre
                    

Una vez instalado, puede verificar la versión instalada de Java con el siguiente comando:

                      java -version
                    

Paso 3. Crear usuario de Hadoop.

Primero, cree un nuevo usuario llamado Hadoop con el siguiente comando:

                      sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser
                    

A continuación, inicie sesión con un usuario de Hadoop y genere un par de claves SSH con el siguiente comando:

                      su - hadoopuser
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
                    

Después de eso, verifique el SSH sin contraseña con el siguiente comando:

                      ssh localhost
                    

Una vez que haya iniciado sesión sin una contraseña, puede continuar con el siguiente paso.

Paso 4. Instalación Apache Hadoop en Ubuntu 20.04.

Ahora descargamos el última versión estable de Apache Hadoop al momento de escribir este artículo es la versión 3.3.0:

                      su - hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
tar -xvzf hadoop-3.3.0.tar.gz
                    

A continuación, mueva el directorio extraído a la /usr/local/ :

                      sudo mv hadoop-3.3.0 /usr/local/hadoop
sudo mkdir /usr/local/hadoop/logs
                    

Cambiamos la propiedad del directorio de Hadoop a Hadoop:

                      sudo chown -R hadoop:hadoop /usr/local/hadoop
                    

Paso 5. Configurar Apache Hadoop.

Configuración de las variables de entorno. Editar ~/.bashrc el archivo y agregue los siguientes valores al final del archivo:

                      nano ~/.bashrc
                    

Agregue las siguientes líneas:

                      export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
                    

Aplique variables ambientales a la sesión que se está ejecutando actualmente:

                      source ~/.bashrc
                    

A continuación, deberá definir las variables de entorno de Java en hadoop-env.sh para configurar los ajustes del proyecto relacionados con YARN, HDFS, MapReduce y Hadoop:

                      sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
                    

Agregue las siguientes líneas:

                      export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"
                    

Ahora puede verificar la versión de Hadoop usando el siguiente comando:

                      hadoop version
                    

Paso 6. Configurar core-site.xml expediente.

Abre el core-site.xml archivo en un editor de texto:

                      sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml
                    

Agregue las siguientes líneas:

                      <configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://0.0.0.0:9000</value>
      <description>The default file system URI</description>
   </property>
</configuration>
                    

Paso 7. Configurar hdfs-site.xml Archivo.

Use el siguiente comando para abrir el hdfs-site.xml archivo para editar:

                      sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
                    

Agregue las siguientes líneas:

                      <configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hdfs/namenode</value>
   </property>

   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hdfs/datanode</value>
   </property>
</configuration>
                    

Paso 8. Configurar mapred-site.xml Archivo.

Utilice el siguiente comando para acceder a la mapred-site.xml expediente:

                      sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
                    

Agregue las siguientes líneas:

                      <configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>
                    

Paso 9. Configurar yarn-site.xml Archivo.

Abre el yarn-site.xml archivo en un editor de texto:

                      sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
                    

Agregue las siguientes líneas:

                      <configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>
                    

Paso 10. Formatee el NameNode de HDFS.

Ahora iniciamos sesión con un usuario de Hadoop y formateamos el NameNode de HDFS con el siguiente comando:

                      su - hadoop
hdfs namenode -format
                    

Paso 11. Inicie el clúster de Hadoop.

Ahora inicie NameNode y DataNode con el siguiente comando:

                      start-dfs.sh
                    

Luego, inicie los administradores de recursos y nodos de YARN:

                      start-yarn.sh
                    

Debe observar la salida para asegurarse de que intenta iniciar el nodo de datos en los nodos esclavos uno por uno. Para verificar si todos los servicios se iniciaron bien usando ‘ jps ‘ dominio:

                      jps
                    

Paso 12. Acceso Apache Hadoop.

El número de puerto predeterminado 9870 le da acceso a la interfaz de usuario de Hadoop NameNode:

                      https://your-server-ip:9870
                    

El puerto predeterminado 9864 se usa para acceder a DataNodes individuales directamente desde su navegador:

                      https://your-server-ip:9864
                    

Instalar Apache Hadoop en Ubuntu 20.04

Se puede acceder al administrador de recursos de YARN en el puerto 8088:

                      https://your-server-ip:8088
                    

Instalar Apache Hadoop en Ubuntu 20.04

¡Felicidades! Ha instalado correctamente Hadoop. Gracias por usar este tutorial para instalar Apache Hadoop en su sistema Ubuntu 20.04 LTS Focal Fossa. Para obtener ayuda adicional o información útil, le recomendamos que consulte el oficial Apache Sitio web de Hadoop .

Related Posts