Cómo instalar Apache Hadoop en Ubuntu 22.04 LTS

En este tutorial, le mostraremos cómo instalar Apache Hadoop en Ubuntu 22.04 LTS. Para aquellos de ustedes que no sabían, Apache Hadoop es una plataforma de software de código abierto basada en Java que se puede usar para administrar y procesar grandes conjuntos de datos para aplicaciones que requieren un procesamiento de datos rápido y escalable. Se basa en Java y utiliza HDFS (Sistema de archivos distribuidos de Hadoop) para almacenar sus datos. Hadoop está diseñado para implementarse en una red de cientos o más de 1000 servidores dedicados. Todos juntos para tratar y procesar la gran cantidad y variedad de conjuntos de datos.

Este artículo asume que tiene al menos un conocimiento básico de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y se supone que está ejecutando en la cuenta raíz, si no, es posible que deba agregar ‘ sudo ‘ a los comandos para obtener privilegios de root. Te mostraré la instalación paso a paso de Apache Hadoop en Ubuntu 22.04 (Jammy Jellyfish). Puede seguir las mismas instrucciones para Ubuntu 22.04 y cualquier otra distribución basada en Debian como Linux Mint, Elementary OS, Pop!_OS y más.

requisitos previos

  • Un servidor que ejecuta uno de los siguientes sistemas operativos: Ubuntu 22.04, 20.04 y cualquier otra distribución basada en Debian como Linux Mint.
  • Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
  • Acceso SSH al servidor (o simplemente abra la Terminal si está en una computadora de escritorio).
  • A non-root sudo user o acceder a la root user . Recomendamos actuar como un non-root sudo user sin embargo, puede dañar su sistema si no tiene cuidado al actuar como raíz.

Instalar Apache Hadoop en Ubuntu 22.04 LTS Jammy Jellyfish

Paso 1. Primero, asegúrese de que todos los paquetes de su sistema estén actualizados ejecutando lo siguiente apt Comandos en la terminal.

                      sudo apt update
sudo apt upgrade
sudo apt install wget apt-transport-https gnupg2 software-properties-common
                    

Paso 2. Instalación de Java OpenJDK.

Apache Hadoop se basa en Java, por lo que deberá instalar Java JDK en su servidor. Ejecutemos el siguiente comando para instalar la versión 11 de JDK predeterminada:

                      sudo apt install default-jdk
                    

Verifique la versión de Java usando el siguiente comando:

                      java --version
                    

Para obtener recursos adicionales sobre la instalación y administración de Java OpenJDK, lea la publicación a continuación:

  • Cómo instalar OpenJDK en Ubuntu Linux √

Paso 3. Cree un usuario para Hadoop.

Ejecute el siguiente comando para crear un nuevo usuario con el nombre Hadoop:

                      sudo adduser hadoop
                    

A continuación, cambie a la cuenta recién creada ejecutando los siguientes comandos:

                      su - hadoop
                    

Ahora configure el acceso SSH sin contraseña para el usuario de Hadoop recién creado. Genere un par de claves SSH primero:

                      ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 640 ~/.ssh/authorized_keys
                    

Después de eso, verifique el SSH sin contraseña con el siguiente comando:

                      ssh localhost
                    

Si inicia sesión sin una contraseña, puede continuar con el siguiente paso.

Paso 4. Instalación Apache Hadoop en Ubuntu 22.04.

Por defecto, Apache Hadoop está disponible en el repositorio base de Ubuntu 22.04. Ahora ejecute el siguiente comando a continuación para descargar la última versión de Hadoop en su sistema Ubuntu:

                      wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
                    

A continuación, extraiga el archivo descargado:

                      tar xzf hadoop-3.3.4.tar.gz
mv hadoop-3.3.4 ~/hadoop
                    

Ahora configure las variables de entorno Hadoop y Java en su sistema. Abre el ~/.bashrc archivo en su editor de texto favorito:

                      nano ~/.bashrc
                    

Agregue el siguiente contenido en la parte inferior del archivo:

                      export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
                    

Guardar y close el archivo, luego cargue la nueva configuración:

                      source ~/.bashrc
                    

También necesita configurar JAVA_HOME en hadoop-env.sh expediente. Edite el archivo de variables de entorno de Hadoop en un editor de texto:

                      nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
                    

Agregue las siguientes líneas:

                      ###
# Generic settings for HADOOP
Many sites configure these options outside of Hadoop,
# such as in /etc/profile.d
# The java implementation to use. By default, this environment
# variable is REQUIRED on ALL platforms except OS X!export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
                    

Paso 5. Configurar Apache Hadoop.

Estamos listos para configurar Hadoop para comenzar a aceptar conexiones. Primero, cree dos carpetas ( namenode y datanode ) dentro de hdfs directorio:

                      mkdir -p ~/hadoopdata/hdfs/{namenode,datanode}
                    

A continuación, edite el core-site.xml archivo a continuación:

                      nano $HADOOP_HOME/etc/hadoop/core-site.xml
                    

Cambie el siguiente nombre según el nombre de host de su sistema:

                      See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. --><configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>
                      
                        hdfs://localhost:9000
                      
                      </value>
    </property>
</configuration>
                    

A continuación, edite el hdfs-site.xml expediente:

                      nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
                    

Cambie las rutas de directorio de NameNode y DataNode como se muestra a continuación:

                      See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. --><configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
        <name>dfs.name.dir</name>
        <value>file:///
                      
                        home/hadoop/hadoopdata/hdfs/namenode
                      
                      </value>
        <name>dfs.data.dir</name>
        <value>file:///
                      
                        home/hadoop/hadoopdata/hdfs/datanode
                      
                      </value>
</configuration>
                    

A continuación, edite el mapred-site.xml expediente:

                      nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
                    

Realice los siguientes cambios:

                      See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. --><configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
                    

A continuación, edite el yarn-site.xml expediente:

                      nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
                    

Crear propiedades de configuración para hilo:

                      See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
--><configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
                    

Tenemos que iniciar el clúster de Hadoop para operar Hadoop. Para ello formatearemos nuestro “ namenode ” primero:

                      hdfs namenode -format
                    

A continuación, ejecute los siguientes comandos para iniciar Hadoop:

                      start-all.sh
                    

Producción:

                      Starting namenodes on [localhost]
Starting datanodes
Starting secondary namenodes [Ubuntu2204]
Ubuntu2204: Warning: Permanently added 'ubuntu2204' (ED10019) to the list of known hosts.
Starting resourcemanager
Starting nodemanagers
                    

Paso 7. Configure el cortafuegos.

Ahora configuramos un cortafuegos sin complicaciones (UFW) con Apache para permitir el acceso público en los puertos web predeterminados para 8088 y 9870:

                      sudo firewall-cmd --permanent --add-port=8088/tcp
sudo firewall-cmd --permanent --add-port=9870/tcp
sudo firewall-cmd --reload
                    

Paso 8. Acceso Apache Interfaz web Hadoop.

Una vez instalado correctamente, abra su navegador web y acceda a la Apache Asistente de instalación de Hadoop usando la URL https://your-IP-address:9870 . Será redirigido a la siguiente página:

También puede acceder a los DataNodes individuales usando la URL https://your-IP-address:8088 . Debería ver la siguiente pantalla:

Instalar Apache Hadoop en Ubuntu 22.04 LTS

Para acceder al Administrador de recursos de YARN, use la URL https://your-IP-address:8088 . Debería ver la siguiente pantalla:

Instalar Apache Hadoop en Ubuntu 22.04 LTS

¡Felicidades! Ha instalado con éxito Apache Hadoop. Gracias por usar este tutorial para instalar Apache Hadoop en el sistema Ubuntu 22.04 LTS Jammy Jellyfish. Para obtener ayuda adicional o información útil, le recomendamos que consulte el oficial Apache Sitio web de Hadoop .

Related Posts