본문 바로가기

rdd

(2)
[Infra] 데이터 인프라 - Ingestion&Transformation(Spark Platform, Python Lib, Batch Query Engine) 🔊 해당 포스팅은 YouTube GeekNews 채널의 데이터 인프라 강의 내용, 하용호님의 SlideShare 슬라이드에 기반해 제가 재구성하여 작성함을 알려드립니다. 이번 포스팅에서는 저번 포스팅에서 살펴본 Ingestion & Transformation 단계의 또 다른 도구인 Apache Spark Platform에 대해 알아보려고 한다. PySpark에 대해 공식 문서를 읽고 어느정도 공부한 내용을 저번에 포스팅한 적이 있다. 그런데 역시 공식 문서만으로 이해한 것이 모든 걸 내가 다 이해한 것이 아니었다.. 그래서 2가지 매체를 통해 더 공부를 하고 정리한 내용을 포스팅하려 한다. 위 빨간색 네모칸의 요소들을 각각 소개하기 전에 이 요소들인 Spark Platform, Python Libs, B..
[PySpark] Apache Spark 와 RDD 자료구조 🔊 본 포스팅은 Apache Spark 3.0.1 공식 문서를 직접 해석하여 필자가 이해한 내용으로 재구성했습니다. 혹여나 컨텐츠 중 틀린 내용이 있다면 적극적인 피드백은 환영입니다! : ) 이번 포스팅에서는 대용량 데이터 병렬 처리를 위한 통합 분석 엔진인 Apache Spark와 Apache Spark의 기본 자료 구조인 RDD 자료구조에 대해 소개하려 한다. Apache Spark는 구조화된 데이터를 처리하기 위한 Spark SQL과 머신러닝을 위한 ML Lib, 그래프 처리를 위한 Graph X, 실시간 처리와 방대한 연산을 위한 Structured Streaming 도구도 제공한다. 또한 Apache Spark는 본래 Scala 언어로 만들어졌지만 Java, R, Python 등과 같은 다양한 ..