본문 바로가기

Apache

Imcloud Apache Cloudera CDH kudu 관련 자료 정리 (hadoop echo) 아임클라우드는 빅데이터 기반 기술과 인공지능 기술을 개발하는 빅데이터 및 인공지능 전문 기업입니다.아임클라우드의 Hadoop 기반 빅데이터 시스템은 국내 최고의 전문가 그룹으로 구성되며 고객 여러분의 빅데이터 고민을 해결해 드립니다. 인공지능의 영역은 무궁무진합니다. 강력한 DeepLearning 기술을 통해 가장 필요한 일을 함께 하는 파트너가 되어드립니다. Imcloud Apache Cloudera CDH kudu 관련 자료 정리 (hadoop echo) Kudu는 Hadoop과 Hbase(phoenix)사이의 틈새를 공략한 솔루션 입니다. - 빅데이터의 분산 저장과 처리를 하면서 CRUD를 할 수 있는 환경에 대한 요구가 많았습니다. 기존에는 Hbase(phoenix)와 Impala가 일부 이런 요.. 더보기
[발번역] Apache Spark 리소스 매니지먼트와 YARN App 모델 (Apache Spark Resource Management and YARN App Models) Apache Spark Resource Management and YARN App Modelshttp://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/위 문서 내용을 공부하면서 발번역 하였습니다흐름을 파악하는데 참고해 주세요 Spark를 스터디하면서 Spark on YARN 모드 2종류를 이해하기가 가장 어려웠습니다. 영어가 부족한데다가 글로 설명된 내용을 보니 계속 미궁속으로 빠지고 있었습니다. 번역하면서 본 이 글은 저의 궁금증을 깔끔하게 해소시켜주는 핵심적인 글이고 저외에 다른 누군가도 이 글이 도움이 되었으면 하는 바람에 블로그에 올려 놓습니다 Apache Spark 리소스 매니지먼트와 YAR.. 더보기
Spark WordCount 데이터 마다 주석(파악 중) Spark WordCount MapReduce 샘플 코드 분석 중입니다코드 원본 중간중간에 데이터를 출력해서 확인하고 있습니다 spark 스터디할 수 있는 링크 정리 http://paranwater.tistory.com/413 실행 환경CentOs 6.5, CDH5(hadoop2.3.0 CDH 5.0.3, Spark1.0.0 CDH5.1.0 )Spark on YARN - client mode한대의 노드에서 테스트 실행 스크립트spark-submit --class com.cloudera.sparkwordcount.JavaWordCount --deploy-mode client --master yarn /data01/SparkExample/sparkwordcount-0.0.1-SNAPSHOT.jar Spark.. 더보기
CDH 5.1.0 Documentation Running Spark Application을 발번역한 내요입니다 CDH 5.1.0 DocumentationRunning Spark Application을 발번역한 내요입니다 전체적인 흐름을 잡는데 이용해주세요 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Installation-Guide/cdh5ig_running_spark_apps.html spark 클러스터 매니저 타입 3가지 정리 http://paranwater.tistory.com/414 *Spark 응용프로그램 실행 (Running Spark Applications)Spark 어플리케이션은 맵리듀스와 job과 유사합니다각 어플리케이션은 사용자가 제공한 코드를 실행해 결과를 연산하는 self-contained(독립.. 더보기
Spark Cluster Manager Types (스파크 클러스터 매니저 타입 3종류 번역) Spark Cluster Manager Types3종류를 발번역 하였습니다 전체적인 흐름을 파악하는데 참고해주세요 스파크 워드 카운트 소스코드 주석달면서 분석중 http://paranwater.tistory.com/416 원문 페이지 주소 : http://spark.apache.org/docs/latest/cluster-overview.html 클러스터 관리자 유형 시스템은 현재 3종류의 클러스터 관리자를 지원합니다. Standalone – a simple cluster manager included with Spark that makes it easy to set up a 독립형 - 간단한 클러스터 매니저가 Spark에 포함되어있어 관리자는 클러스터를 쉽게 구성할 수 있습니다 Apache Mesos –.. 더보기
Spark 스터디 하둡에코 (hadoop) 하둡에코 Spark를 스터디하면서 찾은 내용을 정리하였습니다 SparkSpark 간단 정의하둡에코 중 Spark가 위치하는 곳실시간 데이터를 입력받아 데이터를 연산 하는 위치하둡의 데이터를 메모리에 올려 반복연산이나 MapReduce연산이 필요한 경우Spark가 제공하는 기능MLlib 머신러닝 라이브러리MapReduce실시간 스트리밍 소켓(포트)으로 대기사용 가능한 언어scalajava(8버전이면 스칼라와 비슷한 람다를 이용 함축적으로 구현 가능함)PythonHiveQL(Shakr를 이용)SparkQLgraphX shark 스터디하면서 본 유용한 링크spark shark 에대한 설명한글이며 개괄적으로 파악하는데 도움이 됩니다http://www.slideshare.net/DaegeunKim/spark-an.. 더보기
hadoop streaming 소개 hadoop streaming 소개 영문 원문 주소http://hadoop.apache.org/docs/stable/streaming.html 위 영문 문서 위쪽 기본 내용을 번역 했습니다 관련된 다른 글hadoop streaming 소개Hadoop Streaming 구조HDInsight hadoop streaming C# map reduce test Hadoop streaming 하둡 스트리밍은 Hadoop배포와 함께 제공되는 유틸리티입니다이 유틸리티는 당신이 스크립트 또는 실행 파일로 만든 mapper 및 reduce로 Map/Reduce job을 작성하고 실행할 수 있습니다 $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar -input m.. 더보기
제리코파서 웹에서 사용하기 (아파치, 톰캣, jar, apache, tomcat, java, java.lang.ClassNotFoundException: net.htmlparser.jericho.Source) jsp를 사용한 웹 프로그래밍에서 제리코파서를 사용하기위한 방법입니다 이클립스에서 제리코 파서를 이용해서 일반 java프로그래밍을 할 땐 프로젝트->properties->Java Build Path에서 Libraries에 jericho-html-3.2.jar을 추가해 코딩을 하게 됩니다 그러나 jsp를 이용한 웹 프로그래밍을 할땐 위와 같은 방법으로 제리코파서를 사용할 수 없습니다 처음에는 빌드 패스에 추가된 jar파일을 찾지못하고 클래스가 없다는 오류만 내는지 이유를 알지못해 한참을 고생했습니다 아무리 검색해도 답이 안나오고 전체적인 구성을 제대로 알지못하고 막무가네로 코딩부터 하다보니 마땅히 해결책도 찾지 못하고 있다가 지인에게 물어보고 바로 해결 했습니다 jsp실행시 제리코파서 클래스를 찾지 못한다.. 더보기