En este tutorial, le mostraremos cómo instalar Apache Hadoop en Ubuntu 22.04 LTS. Para aquellos de ustedes que no sabían, Apache Hadoop es una plataforma de software de código abierto basada en Java que se puede usar para administrar y procesar grandes conjuntos de datos para aplicaciones que requieren un procesamiento de datos rápido y escalable. Se basa en Java y utiliza HDFS (Sistema de archivos distribuidos de Hadoop) para almacenar sus datos. Hadoop está diseñado para implementarse en una red de cientos o más de 1000 servidores dedicados. Todos juntos para tratar y procesar la gran cantidad y variedad de conjuntos de datos.
Este artículo asume que tiene al menos un conocimiento básico de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y se supone que está ejecutando en la cuenta raíz, si no, es posible que deba agregar ‘ sudo
‘ a los comandos para obtener privilegios de root. Te mostraré la instalación paso a paso de Apache Hadoop en Ubuntu 22.04 (Jammy Jellyfish). Puede seguir las mismas instrucciones para Ubuntu 22.04 y cualquier otra distribución basada en Debian como Linux Mint, Elementary OS, Pop!_OS y más.
requisitos previos
- Un servidor que ejecuta uno de los siguientes sistemas operativos: Ubuntu 22.04, 20.04 y cualquier otra distribución basada en Debian como Linux Mint.
- Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
- Acceso SSH al servidor (o simplemente abra la Terminal si está en una computadora de escritorio).
- A
non-root sudo user
o acceder a laroot user
. Recomendamos actuar como unnon-root sudo user
sin embargo, puede dañar su sistema si no tiene cuidado al actuar como raíz.
Instalar Apache Hadoop en Ubuntu 22.04 LTS Jammy Jellyfish
Paso 1. Primero, asegúrese de que todos los paquetes de su sistema estén actualizados ejecutando lo siguiente apt
Comandos en la terminal.
sudo apt update sudo apt upgrade sudo apt install wget apt-transport-https gnupg2 software-properties-common
Paso 2. Instalación de Java OpenJDK.
Apache Hadoop se basa en Java, por lo que deberá instalar Java JDK en su servidor. Ejecutemos el siguiente comando para instalar la versión 11 de JDK predeterminada:
sudo apt install default-jdk
Verifique la versión de Java usando el siguiente comando:
java --version
Para obtener recursos adicionales sobre la instalación y administración de Java OpenJDK, lea la publicación a continuación:
- Cómo instalar OpenJDK en Ubuntu Linux √
Paso 3. Cree un usuario para Hadoop.
Ejecute el siguiente comando para crear un nuevo usuario con el nombre Hadoop:
sudo adduser hadoop
A continuación, cambie a la cuenta recién creada ejecutando los siguientes comandos:
su - hadoop
Ahora configure el acceso SSH sin contraseña para el usuario de Hadoop recién creado. Genere un par de claves SSH primero:
ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 640 ~/.ssh/authorized_keys
Después de eso, verifique el SSH sin contraseña con el siguiente comando:
ssh localhost
Si inicia sesión sin una contraseña, puede continuar con el siguiente paso.
Paso 4. Instalación Apache Hadoop en Ubuntu 22.04.
Por defecto, Apache Hadoop está disponible en el repositorio base de Ubuntu 22.04. Ahora ejecute el siguiente comando a continuación para descargar la última versión de Hadoop en su sistema Ubuntu:
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
A continuación, extraiga el archivo descargado:
tar xzf hadoop-3.3.4.tar.gz mv hadoop-3.3.4 ~/hadoop
Ahora configure las variables de entorno Hadoop y Java en su sistema. Abre el ~/.bashrc
archivo en su editor de texto favorito:
nano ~/.bashrc
Agregue el siguiente contenido en la parte inferior del archivo:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Guardar y close el archivo, luego cargue la nueva configuración:
source ~/.bashrc
También necesita configurar JAVA_HOME en hadoop-env.sh
expediente. Edite el archivo de variables de entorno de Hadoop en un editor de texto:
nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Agregue las siguientes líneas:
### # Generic settings for HADOOP Many sites configure these options outside of Hadoop, # such as in /etc/profile.d # The java implementation to use. By default, this environment # variable is REQUIRED on ALL platforms except OS X!export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
Paso 5. Configurar Apache Hadoop.
Estamos listos para configurar Hadoop para comenzar a aceptar conexiones. Primero, cree dos carpetas ( namenode
y datanode
) dentro de hdfs
directorio:
mkdir -p ~/hadoopdata/hdfs/{namenode,datanode}
A continuación, edite el core-site.xml
archivo a continuación:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
Cambie el siguiente nombre según el nombre de host de su sistema:
See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <!-- Put site-specific property overrides in this file. --><configuration> <property> <name>fs.defaultFS</name> <value> hdfs://localhost:9000 </value> </property> </configuration>
A continuación, edite el hdfs-site.xml
expediente:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Cambie las rutas de directorio de NameNode y DataNode como se muestra a continuación:
See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <!-- Put site-specific property overrides in this file. --><configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <name>dfs.name.dir</name> <value>file:/// home/hadoop/hadoopdata/hdfs/namenode </value> <name>dfs.data.dir</name> <value>file:/// home/hadoop/hadoopdata/hdfs/datanode </value> </configuration>
A continuación, edite el mapred-site.xml
expediente:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Realice los siguientes cambios:
See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <!-- Put site-specific property overrides in this file. --><configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
A continuación, edite el yarn-site.xml
expediente:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Crear propiedades de configuración para hilo:
See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --><configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Tenemos que iniciar el clúster de Hadoop para operar Hadoop. Para ello formatearemos nuestro “ namenode
” primero:
hdfs namenode -format
A continuación, ejecute los siguientes comandos para iniciar Hadoop:
start-all.sh
Producción:
Starting namenodes on [localhost] Starting datanodes Starting secondary namenodes [Ubuntu2204] Ubuntu2204: Warning: Permanently added 'ubuntu2204' (ED10019) to the list of known hosts. Starting resourcemanager Starting nodemanagers
Paso 7. Configure el cortafuegos.
Ahora configuramos un cortafuegos sin complicaciones (UFW) con Apache para permitir el acceso público en los puertos web predeterminados para 8088 y 9870:
sudo firewall-cmd --permanent --add-port=8088/tcp sudo firewall-cmd --permanent --add-port=9870/tcp sudo firewall-cmd --reload
Paso 8. Acceso Apache Interfaz web Hadoop.
Una vez instalado correctamente, abra su navegador web y acceda a la Apache Asistente de instalación de Hadoop usando la URL https://your-IP-address:9870
. Será redirigido a la siguiente página:
También puede acceder a los DataNodes individuales usando la URL https://your-IP-address:8088
. Debería ver la siguiente pantalla:
Para acceder al Administrador de recursos de YARN, use la URL https://your-IP-address:8088
. Debería ver la siguiente pantalla:
¡Felicidades! Ha instalado con éxito Apache Hadoop. Gracias por usar este tutorial para instalar Apache Hadoop en el sistema Ubuntu 22.04 LTS Jammy Jellyfish. Para obtener ayuda adicional o información útil, le recomendamos que consulte el oficial Apache Sitio web de Hadoop .