🌱 Infra/Hadoop_HDFS 10

[Spark 3.1] Spark 서비스 포트 및 설정 이해하고 넘어가기!

Spark 프로세스 확인하기 1) Master Node 마스터 노드에서는 "Master"라는 프로세스가 실행되고 있습니다. 2) Worker 01~ 03 Node 워커노드에서는 ""Worker"라는 프로세스가 실행되고 있습니다. (Worker 01~03 모두 동일하므로, 캡쳐는 Worker01만 넣었습니다!) Spark Service Port 서버 포트 파라메터 설정파일 설명 Master 7077 SPARK_MASTER_PORT ${spark_home}/conf/spark-env.sh Spark Master Port 8080 SPARK_MASTER_WEBUI_PORT Master Web UI Worker01~03 8081 SPARK_WORKER_WEBUI_PORT Worker Web UI {Random ..

[Hadoop 3.3] YARN 서비스 포트 및 설정 이해하고 넘어가기!

YARN 프로세스 확인하기 1) Master Node Master 노드에는 YARN이 운영되기 위한 리소스 매니저 프로세스가 운영되고 있습니다. 2) Worker01~03 Node Worker 01~ 03 노드에는 모두 노드 매니저 프로세스가 운영되고 있습니다. YARN Service Port YARN 의 서비스 포트와 파라메터를 확인하겠습니다. 서버 포트 프로토콜 파라메터 설명 Master 8088 http yarn.resourcemanager.webapp.address 리소스 매니저 웹 UI 8030 http yarn.resourcemanager.scheduler.address 스케줄러 인터페이스 8031 http yarn.resourcemanager.resource-tracker.address YA..

[Hadoop 3.3] HDFS 서비스 포트 및 설정 이해하고 넘어가기!

HDFS 프로세스 확인하기 1) Master Node 현재 Master 서버에서는 NameNode 프로스세만 운영되고 있습니다. 마스터 노드는 8020, 9870 이렇게 두개의 포트를 LISTEN중입니다. 2) Worker01 Node (Secondary NameNode + DataNode) 현재 Worker01 서버에서는 세컨더리 네임노드 프로세스와, 데이터노드 프로스세가 운영중입니다. 3) Worker02 Node (DataNode) 현재 Worker 02 서버에서는 데이터노드 프로세스 운영중입니다. 4) Worker03 Node (DataNode) 현재 Worker 03 서버에서는 데이터노드 프로세스 운영중입니다. HDFS Service Port HDFS의 서비스 포트와 파라메터를 확인하겠습니다. ..

[번외#1 ]Hadoop HDFS(3.3)+Spark(3.1.1)+JupyterNotebook - Scala 사용하기

이번 포스팅에는 JypyterNotebook에 Scala커널을 추가해서, Scala를 실행해보겠습니다. 이전에 생성해놓은 인프라를 그대로 사용할 예정이니, 앞 포스팅을 차근하근히 따라오신 후 진행해주시기를 바랍니다^-^ 1. Scala 설치 저는 python3.7을 사용하므로, pip3으로 설치했습니다! 아래 명령어로 spylon_kernal을 설치하고, 커널에 추가합니다. [root@master ~]# pip3 install spylon-kernel [root@master ~]# python3 -m spylon_kernel install kernalspec 명령어로 커널 추가가 잘 되었는지 확인해봅니다. [root@master ~]# jupyter kernelspec list 2. Jupyter Not..

Hadoop HDFS(3.3)+Spark(3.1.1) + JupyterNotebook 무작정 따라하기 #3

이 포스팅은 이전 포스팅과 이어집니다. 😘 Hadoop HDFS(3.3)+Spark(3.1.1)! 무작정 따라하기 #2 Hadoop HDFS(3.3)+Spark(3.1.1)! 무작정 따라하기 #2 이 포스팅은 이전 포스팅과 이어집니다. 이전 포스팅에서 EC2 한대를 생성하여 그 인스턴스에 필요한 소프트웨어를 모두 설치하고, 환경변수와 설정파일을 수정했습니다. 그리고 그 인스턴스를 1mini2.tistory.com 이전 포스팅 #1 ~ #2에서 모든 인프라 구축이 완료 되었습니다. 이제 4대의 인스턴스에 HDFS, YARN, Spark 클러스터가 운영중입니다. 🎉🎉🎉🎉 이번 단계에JupyterNotebook을 설치하고 실행해보도록 하겠습니다.😘 하지만 그 전에! 모든 서비스가 정상인지 확인해봅시다!! 인프..

Hadoop HDFS(3.3)+Spark(3.1.1)! 무작정 따라하기 #2

이 포스팅은 이전 포스팅과 이어집니다. 😘 Hadoop HDFS(3.3)+Spark(3.1.1)! 무작정 따라하기 #1 Hadoop HDFS(3.3)+Spark(3.1.1)! 무작정 따라하기 #1 안녕하세요 😁😁😁😁! 저번 포스팅에는 하둡 HDFS 예전 버전 (2.0)을 설치했었습니다. 이번 포스팅에는 하둡HDFS 최신버전인 3.3를 설치하고, 그 위에 Spark도 함께 설치해보려고 합니다. HDFS 3.3버 1mini2.tistory.com 이전 포스팅에서 EC2 한대를 생성하여 그 인스턴스에 필요한 소프트웨어를 모두 설치하고, 환경변수와 설정파일을 수정했습니다. 그리고 그 인스턴스를 AMI이미지로 만든 후, 복제하여 총 4대의 인스턴스를 만들었죠! 이번 포스팅에서는 이제 각 역할에 맞춰 Master/..

Hadoop HDFS(3.3)+Spark(3.1.1)! 무작정 따라하기 #1

안녕하세요 😁😁😁😁! 저번 포스팅에는 하둡 HDFS 예전 버전 (2.0)을 설치했었습니다. 이번 포스팅에는 하둡HDFS 최신버전인 3.3를 설치하고, 그 위에 Spark도 함께 설치해보려고 합니다. HDFS 3.3버전은 Java 1.8버전 이상이 필요합니다. ^.^ (Apache Hadoop 3.3 and upper supports Java 8 and Java 11) 이번 포스팅과 이어지는 포스팅들을 따라서 쭉 진행하면, HDFS+YARN+Spark 구성이 완성되고, 마지막으로는 주피터 노트북도 사용할 수 있도록 하려고 합니다.👍🏻 [설치해야할 라이브러리 목록] 1. Java 1.8 2. HDFS 3.3 3. Scala 2.13.5 4. Spark 3.1.1 자, 이제 한번 설치해봅시다! 1. EC2 인..

Hadoop 하둡! 한번 사용해보기

이 포스팅은 이전포스팅과 이어집니다 :) 자! 지금까지 아래 그림처럼 우리는 Master 한대와 Slave 세대를 이용해서 하둡클러스터를 만들었습니다. 👍🏻👍🏻 이제부터는 우리가 만들어놓은 이 하둡 클러스터를 활용해보려고 합니다. 😏 Hadoop? HDFS? 뭐가 다른가? 하둡 클러스터를 사용하는 방법에 대해서 이제 알아보려고 하는데, 그 전에 의아한 부분이 있습니다. hadoop과 hdfs는 뭐가 다른걸까요? 더보기 하둡이란? 대량의 자료를 처리할 수 있는 컴퓨터 클러스터에서 동작하는 "프리웨어 자바 소프트웨어 프레임워크"입니다. Apache Hadoop Framework에서는 아래의 모듈을 포함하고 있습니다. - 하둡 커먼(Hadoop Common) - 하둡 분산 파일 시스템(HDFS) - 스토리지 ..

Hadoop 하둡(2.10.1)! 무작정 따라하기 #2

이 포스팅은 이전포스팅과 이어집니다 :) 지금까지 하나의 노드에 Java와 하둡을 설치하고, 하둡 설정파일을 수정했습니다. 이번 포스팅에서는 각 노드에 맞게 설정을 변경해보도록 하겠습니다 !! 1. Master서버 설정 이번 단계에서는 Master 서버의 설정을 변경합니다 :) 더보기 Master 서버에 SSH로 접속합니다. 1) Hostname 변경 hostnamectl 명령어를 통해 호스트 이름을 변경합니다. sudo hostnamectl set-hostname master.hadoop 2) /etc/hosts 파일 수정 hosts파일을 수정합니다. hosts 파일을 수정하기 전, EC2콘솔에서 각 인스턴스의 프라이빗IP주소를 알아둡니다 :) sudo vi /etc/hosts 172.31.3.145 ..

Hadoop 하둡(2.10.1)! 무작정 따라하기 #1

안녕하세요 🙋‍♀️ 🙋‍♂️ 이번에 하둡에코시스템에 대해서 공부해보려고 합니다. 내용 정리하면서, 나중에 또 까먹을 미래의 나를 위해!! 포스팅 합니다. 하하 저는 AWS 의 EC2를 사용할 예정이므로, 모든 절차에 다 EC2를 사용합니다 :) 모든 단계는 공식사이트를 기준으로 작성 되었으며, 최종 아키텍쳐는 1개의 마스터노드, 3개의 슬레이브노드로 구성될 예정입니다 :) 시작해보겠습니다. 1. EC2 생성하기 이번 단계에서는 EC2 인스턴스를 생성합니다. OS는 리눅스 CentOS를 사용할 예정입니다.!!! 꼭 AWS가 아니더라도 사용할수 있는 리눅스 서버(가상서버) 4대를 준비해주세요! 이번 단계에서는 그중에 하나를 마스터 서버로 사용할 예정입니다 :) 더보기 AWS 웹 콘솔에 접속한 후 EC2서비스..

728x90