Categories: Uncategorized

맥북에 PySpark 로컬 환경 설치 (feat. Brew)

  • 맥북에서 PySpark 로컬 실행환경 설치를 해보기 위한 방법을 정리하였다. 데이터 엔지니어링을 공부하면 Spark는 꼭 다뤄야 하는 기술 중 하나이다.
  • Jupyter Extension을 활용하여 Notebook 기반으로 실행하는 방식까지 확인해본다.

1. 기본 준비물 VSCode + Jupyter 환경 구성

VS Code 다운로드

처음 설치는 기본 환경 준비를 위해 위에 링크를 들어가 VS Code 를 설치하고 위 화면과 같이 Extension 에서 Jupyter를 설치한다.

2. Homebrew 설치 여부 확인

Brew 다운로드

!brew --version
!brew update-reset && brew update

맥북에서는 pySpark를 설치하기 위해 Brew 패키지를 활용한다.

3. Open JDK 패키지 조회 및 설치

JDK 설치가 꽤 까다로울 수 있는데, Spark 버전과 호환되는 JDK 버전을 설치해야된다. 아니면 오류가 발생하기 때문에 Spark는 Java 기반이므로 OpenJDK 17 이상 설치를 추천한다.

!brew search openjdk@17
!brew install openjdk@17

Path 설정

JDK 설치 이후 위에 Java 경로를 환경변수에 등록한다.

# 심볼릭 링크 생성
sudo ln -sfn /opt/homebrew/opt/openjdk@17/libexec/openjdk.jdk /Library/Java/JavaVirtualMachines/openjdk-17.jdk

# PATH 설정
echo 'export PATH="opt/homebrew/opt/openjdk@17/bin:$PATH"' >> /Users/{사용자명}/.zshrc

# java 버전
java -version

4. Apache Spark 설치

드디어 pySpark 를 설치해본다. Notebook에서 설치하는 방법이다.

!pip install findspark pyspark  # 현재 기준 version 4.0.1으로 설치됨

# 또한 brew를 활용하여 설치가 가능함.
brew install apache-spark
import os
os.environ["JAVA_HOME"] = "/opt/homebrew/opt/openjdk@17"

import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Hello PySpark").getOrCreate()

df = spark.range(0,10)
df.show()

위에 코드까지 수행이 되면 Spark를 로컬에서 시작할 준비가 되었다.

이후 간단히 spark로 DataFrame을 만들어보자.

Fogner

Recent Posts

Synapse에서 외부 스토리지 호출하여 Excel 파일 불러오기

Azure Synapse은 대규모 DW를 구축하거나 ETL 설계에서 필요한 통합 플랫폼이다. 특히 Spark환경에서 데이터를 효율적으로 불러오고,…

2개월 ago

샘플 포스트 4

예비비는 총액으로 국회의 의결을 얻어야 한다. 예비비의 지출은 차기국회의 승인을 얻어야 한다. 헌법재판소 재판관의 임기는…

2년 ago

샘플 포스트 3

예비비는 총액으로 국회의 의결을 얻어야 한다. 예비비의 지출은 차기국회의 승인을 얻어야 한다. 헌법재판소 재판관의 임기는…

2년 ago

샘플 포스트 2

예비비는 총액으로 국회의 의결을 얻어야 한다. 예비비의 지출은 차기국회의 승인을 얻어야 한다. 헌법재판소 재판관의 임기는…

2년 ago

샘플 포스트 1

예비비는 총액으로 국회의 의결을 얻어야 한다. 예비비의 지출은 차기국회의 승인을 얻어야 한다. 헌법재판소 재판관의 임기는…

2년 ago