반응형
하둡에코 Spark를 스터디하면서 찾은 내용을 정리하였습니다
Spark
- Spark 간단 정의
- 하둡에코 중 Spark가 위치하는 곳
- 실시간 데이터를 입력받아 데이터를 연산 하는 위치
- 하둡의 데이터를 메모리에 올려 반복연산이나 MapReduce연산이 필요한 경우
- Spark가 제공하는 기능
- MLlib 머신러닝 라이브러리
- MapReduce
- 실시간 스트리밍 소켓(포트)으로 대기
- 사용 가능한 언어
- scala
- java(8버전이면 스칼라와 비슷한 람다를 이용 함축적으로 구현 가능함)
- Python
- HiveQL(Shakr를 이용)
- SparkQL
- graphX
- 하둡에코 중 Spark가 위치하는 곳
- shark 스터디하면서 본 유용한 링크
- spark shark 에대한 설명
- 한글이며 개괄적으로 파악하는데 도움이 됩니다
- http://www.slideshare.net/DaegeunKim/spark-and-shark-16055072#
- -Agenda
- Spark Granularity / 간단한 소개
- RDD / Lineage / Fault-Tolerant
- High-level Operators / Storage / Cache
- Shark
- Architecture
- Features / CacheFriday
- Spark가 빅데이터 에코에서 어떤 용도로 사용되는지 파악할 수 있는 글 입니다
- 다양한 하둡에코들의 용도에대한 글입니다
- 실시간 빅데이터는 어떻게 분석할까
- http://helloworld.naver.com/helloworld/694050
- -분산 쿼리의 기본 동작 방식: 파티셔닝과 셔플
- 파이프라이닝
- 스트리밍 방식
- state checkpointing
- Sketches
- hortonworks에서 sandbox에 설치할수 있도록 안내 하는 가이드
- sandbox에서 설치해 간단한 예제를 실행해볼 수 있도록 가이드 합니다
- http://ko.hortonworks.com/wp-content/upload다s/2014/05/SparkTechnicalPreview.pdf
- Apache Spark Introduction
- System Requirements
- Operating systems
- Software Requirements
- Sandbox Requirements
- Installation
- Configuration
- Running SparkPi on YARN
- Running Spark with WordCount
- Running Machine Learning Using Spark
- Troubleshooting
- Known Issues
- Further Reading
spark가 제공하는 기능 mapreduce, stream에대한 코딩 설명과 하둡MapReduce와 속도차이가 많이나는 이유에 대한 설명이 잘 되어 있습니다
- Cloudera의 글을 번역한 내용입니다
- http://whiteiness.tistory.com/3
- 클라우데라 Spark블로그 란에 다양한 주제의 글 있습니다
- java8에서 람다를 이용해 간단하게 이용하는 방법
- spark shark 에대한 설명
- CDH 스파크 실행방법 발번역
http://paranwater.tistory.com/415
반응형
'보물창고 > Big Data' 카테고리의 다른 글
[발번역] Apache Spark 리소스 매니지먼트와 YARN App 모델 (Apache Spark Resource Management and YARN App Models) (0) | 2014.07.25 |
---|---|
Spark WordCount 데이터 마다 주석(파악 중) (0) | 2014.07.24 |
CDH 5.1.0 Documentation Running Spark Application을 발번역한 내요입니다 (1) | 2014.07.23 |
Spark Cluster Manager Types (스파크 클러스터 매니저 타입 3종류 번역) (0) | 2014.07.22 |
Hortonworks 샌드박스에 있는 Ambari 관련 내용 번역 입니다 (sandbox) (0) | 2013.05.06 |
hiveserver2 client 내용 정리 beeline (0) | 2013.05.06 |
Hortonworks hadoop oozie 트러블슈팅 (0) | 2013.05.01 |
dropdups 인덱스 생성문제 기록 (0) | 2013.04.18 |