처음 설치는 기본 환경 준비를 위해 위에 링크를 들어가 VS Code 를 설치하고 위 화면과 같이 Extension 에서 Jupyter를 설치한다.
!brew --version
!brew update-reset && brew update 맥북에서는 pySpark를 설치하기 위해 Brew 패키지를 활용한다.
JDK 설치가 꽤 까다로울 수 있는데, Spark 버전과 호환되는 JDK 버전을 설치해야된다. 아니면 오류가 발생하기 때문에 Spark는 Java 기반이므로 OpenJDK 17 이상 설치를 추천한다.
!brew search openjdk@17
!brew install openjdk@17 Path 설정
JDK 설치 이후 위에 Java 경로를 환경변수에 등록한다.
# 심볼릭 링크 생성
sudo ln -sfn /opt/homebrew/opt/openjdk@17/libexec/openjdk.jdk /Library/Java/JavaVirtualMachines/openjdk-17.jdk
# PATH 설정
echo 'export PATH="opt/homebrew/opt/openjdk@17/bin:$PATH"' >> /Users/{사용자명}/.zshrc
# java 버전
java -version
드디어 pySpark 를 설치해본다. Notebook에서 설치하는 방법이다.
!pip install findspark pyspark # 현재 기준 version 4.0.1으로 설치됨
# 또한 brew를 활용하여 설치가 가능함.
brew install apache-spark import os
os.environ["JAVA_HOME"] = "/opt/homebrew/opt/openjdk@17"
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Hello PySpark").getOrCreate()
df = spark.range(0,10)
df.show()
위에 코드까지 수행이 되면 Spark를 로컬에서 시작할 준비가 되었다.
이후 간단히 spark로 DataFrame을 만들어보자.
Azure Synapse은 대규모 DW를 구축하거나 ETL 설계에서 필요한 통합 플랫폼이다. 특히 Spark환경에서 데이터를 효율적으로 불러오고,…