본문 바로가기

보물창고/Big Data

Spark 스터디 하둡에코 (hadoop)

반응형

하둡에코 Spark를 스터디하면서 찾은 내용을 정리하였습니다




Spark

  • Spark 간단 정의
    1. 하둡에코 중 Spark가 위치하는 곳
      • 실시간 데이터를 입력받아 데이터를 연산 하는 위치
      • 하둡의 데이터를 메모리에 올려 반복연산이나 MapReduce연산이 필요한 경우
    2. Spark가 제공하는 기능
      • MLlib 머신러닝 라이브러리
      • MapReduce
      • 실시간 스트리밍 소켓(포트)으로 대기
    3. 사용 가능한 언어
      • scala
      • java(8버전이면 스칼라와 비슷한 람다를 이용 함축적으로 구현 가능함)
      • Python
      • HiveQL(Shakr를 이용)
      • SparkQL
      • graphX







반응형