Spark 스터디 하둡에코 (hadoop)

하둡에코 Spark를 스터디하면서 찾은 내용을 정리하였습니다

Spark

Spark 간단 정의
1. 하둡에코 중 Spark가 위치하는 곳
  - 실시간 데이터를 입력받아 데이터를 연산 하는 위치
  - 하둡의 데이터를 메모리에 올려 반복연산이나 MapReduce연산이 필요한 경우
2. Spark가 제공하는 기능
  - MLlib 머신러닝 라이브러리
  - MapReduce
  - 실시간 스트리밍 소켓(포트)으로 대기
3. 사용 가능한 언어
  - scala
  - java(8버전이면 스칼라와 비슷한 람다를 이용 함축적으로 구현 가능함)
  - Python
  - HiveQL(Shakr를 이용)
  - SparkQL
  - graphX

shark 스터디하면서 본 유용한 링크
1. spark shark 에대한 설명
  한글이며 개괄적으로 파악하는데 도움이 됩니다
  http://www.slideshare.net/DaegeunKim/spark-and-shark-16055072#
  -Agenda
  Spark Granularity / 간단한 소개
  RDD / Lineage / Fault-Tolerant
  High-level Operators / Storage / Cache
  Shark
  Architecture
  Features / CacheFriday
2. Spark가 빅데이터 에코에서 어떤 용도로 사용되는지 파악할 수 있는 글 입니다
  다양한 하둡에코들의 용도에대한 글입니다
  실시간 빅데이터는 어떻게 분석할까
  http://helloworld.naver.com/helloworld/694050
  -분산 쿼리의 기본 동작 방식: 파티셔닝과 셔플
  파이프라이닝
  스트리밍 방식
  state checkpointing
  Sketches
3. hortonworks에서 sandbox에 설치할수 있도록 안내 하는 가이드
  sandbox에서 설치해 간단한 예제를 실행해볼 수 있도록 가이드 합니다
  http://ko.hortonworks.com/wp-content/upload다s/2014/05/SparkTechnicalPreview.pdf
  Apache Spark Introduction
  System Requirements
  Operating systems
  Software Requirements
  Sandbox Requirements
  Installation
  Configuration
  Running SparkPi on YARN
  Running Spark with WordCount
  Running Machine Learning Using Spark
  Troubleshooting
  Known Issues
  Further Reading
4. spark가 제공하는 기능 mapreduce, stream에대한 코딩 설명과 하둡MapReduce와 속도차이가 많이나는 이유에 대한 설명이 잘 되어 있습니다
  Cloudera의 글을 번역한 내용입니다
  http://whiteiness.tistory.com/3
5. 클라우데라 Spark블로그 란에 다양한 주제의 글 있습니다
  https://blog.cloudera.com/blog/category/spark/
6. java8에서 람다를 이용해 간단하게 이용하는 방법
  클라우데라 blog spark글
  https://blog.cloudera.com/blog/2014/04/making-apache-spark-easier-to-use-in-java-with-java-8/

CDH 스파크 실행방법 발번역
http://paranwater.tistory.com/415

'보물창고 > Big Data' 카테고리의 다른 글

[발번역] Apache Spark 리소스 매니지먼트와 YARN App 모델 (Apache Spark Resource Management and YARN App Models) (0)	2014.07.25
Spark WordCount 데이터 마다 주석(파악 중) (0)	2014.07.24
CDH 5.1.0 Documentation Running Spark Application을 발번역한 내요입니다 (1)	2014.07.23
Spark Cluster Manager Types (스파크 클러스터 매니저 타입 3종류 번역) (0)	2014.07.22
Hortonworks 샌드박스에 있는 Ambari 관련 내용 번역 입니다 (sandbox) (0)	2013.05.06
hiveserver2 client 내용 정리 beeline (0)	2013.05.06
Hortonworks hadoop oozie 트러블슈팅 (0)	2013.05.01
dropdups 인덱스 생성문제 기록 (0)	2013.04.18

생각의 정리

Spark 스터디 하둡에코 (hadoop)

Spark

'보물창고 > Big Data' 카테고리의 다른 글

티스토리툴바

Spark 스터디 하둡에코 (hadoop)

Spark

'보물창고 > Big Data' 카테고리의 다른 글

'보물창고/Big Data' Related Articles

티스토리툴바