본문 바로가기

spark

[발번역] Apache Spark 리소스 매니지먼트와 YARN App 모델 (Apache Spark Resource Management and YARN App Models) Apache Spark Resource Management and YARN App Modelshttp://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/위 문서 내용을 공부하면서 발번역 하였습니다흐름을 파악하는데 참고해 주세요 Spark를 스터디하면서 Spark on YARN 모드 2종류를 이해하기가 가장 어려웠습니다. 영어가 부족한데다가 글로 설명된 내용을 보니 계속 미궁속으로 빠지고 있었습니다. 번역하면서 본 이 글은 저의 궁금증을 깔끔하게 해소시켜주는 핵심적인 글이고 저외에 다른 누군가도 이 글이 도움이 되었으면 하는 바람에 블로그에 올려 놓습니다 Apache Spark 리소스 매니지먼트와 YAR.. 더보기
Spark WordCount 데이터 마다 주석(파악 중) Spark WordCount MapReduce 샘플 코드 분석 중입니다코드 원본 중간중간에 데이터를 출력해서 확인하고 있습니다 spark 스터디할 수 있는 링크 정리 http://paranwater.tistory.com/413 실행 환경CentOs 6.5, CDH5(hadoop2.3.0 CDH 5.0.3, Spark1.0.0 CDH5.1.0 )Spark on YARN - client mode한대의 노드에서 테스트 실행 스크립트spark-submit --class com.cloudera.sparkwordcount.JavaWordCount --deploy-mode client --master yarn /data01/SparkExample/sparkwordcount-0.0.1-SNAPSHOT.jar Spark.. 더보기
CDH 5.1.0 Documentation Running Spark Application을 발번역한 내요입니다 CDH 5.1.0 DocumentationRunning Spark Application을 발번역한 내요입니다 전체적인 흐름을 잡는데 이용해주세요 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Installation-Guide/cdh5ig_running_spark_apps.html spark 클러스터 매니저 타입 3가지 정리 http://paranwater.tistory.com/414 *Spark 응용프로그램 실행 (Running Spark Applications)Spark 어플리케이션은 맵리듀스와 job과 유사합니다각 어플리케이션은 사용자가 제공한 코드를 실행해 결과를 연산하는 self-contained(독립.. 더보기
Spark Cluster Manager Types (스파크 클러스터 매니저 타입 3종류 번역) Spark Cluster Manager Types3종류를 발번역 하였습니다 전체적인 흐름을 파악하는데 참고해주세요 스파크 워드 카운트 소스코드 주석달면서 분석중 http://paranwater.tistory.com/416 원문 페이지 주소 : http://spark.apache.org/docs/latest/cluster-overview.html 클러스터 관리자 유형 시스템은 현재 3종류의 클러스터 관리자를 지원합니다. Standalone – a simple cluster manager included with Spark that makes it easy to set up a 독립형 - 간단한 클러스터 매니저가 Spark에 포함되어있어 관리자는 클러스터를 쉽게 구성할 수 있습니다 Apache Mesos –.. 더보기
Spark 스터디 하둡에코 (hadoop) 하둡에코 Spark를 스터디하면서 찾은 내용을 정리하였습니다 SparkSpark 간단 정의하둡에코 중 Spark가 위치하는 곳실시간 데이터를 입력받아 데이터를 연산 하는 위치하둡의 데이터를 메모리에 올려 반복연산이나 MapReduce연산이 필요한 경우Spark가 제공하는 기능MLlib 머신러닝 라이브러리MapReduce실시간 스트리밍 소켓(포트)으로 대기사용 가능한 언어scalajava(8버전이면 스칼라와 비슷한 람다를 이용 함축적으로 구현 가능함)PythonHiveQL(Shakr를 이용)SparkQLgraphX shark 스터디하면서 본 유용한 링크spark shark 에대한 설명한글이며 개괄적으로 파악하는데 도움이 됩니다http://www.slideshare.net/DaegeunKim/spark-an.. 더보기