본문 바로가기

보물창고/Big Data

dropdups 인덱스 생성문제 기록 MongoDB스터디중 dropdups인덱스 생성문제 입니다 mongod 인스턴스 최초 실행 상태에서 테스트 했습니다 > db.a.insert({id:1, name:"a"})> db.a.insert({id:1, name:"b"})> db.a.insert({id:2, name:"c"})> db.a.insert({id:3, name:"d"})>> db.a.ensureIndex({id:1},{unique:true, dropdups:true}){ "err" : "E11000 duplicate key error index: test.a.$id_1 dup key: { : 1.0 }", "code" : 11000, "n" : 0, "connectionId" : 1, "ok" : 1} 실행 결과가 위와 같은 에러를 표시.. 더보기
hadoop oozie 3.2.0 document 필요한 부분 번역 (Basic Setup, Oozie Quick Start, Oozie Examples 하둡) hadoop oozie 3.2.0 document 필요한 부분 번역 (Basic Setup, Oozie Quick Start, Oozie Examples 하둡)Oozie 스터디할때 번역한 내용입니다정확한 번역이 아니니... 원문 참고하면서 보세요 oozie 트러블 슈팅http://paranwater.tistory.com/397 oozie 3,2,0 documenthttp://oozie.apache.org/docs/3.2.0-incubating/index.html Oozie, Yahoo! Workflow Engine for Hadoop oozie v3은 높은 수준의 추상화를 제공하는 서버 기반 묶음 엔진입니다 일괄 코디네이터 응용 프로그램을 설정 합니다 사용자는 시작/중지/일시중지/재개/리턴 을 더 쉽게 .. 더보기
윈도우 하둡 HDInsight 0.4.0 클러스터 구성 - window hadoop HDInsight cluster setting 윈도우 하둡 HDInsight 0.4.0 클러스터 구성 - window hadoop HDInsight cluster setting HDInsight 포럼에 있는 글을 참고 하여 클러스터를 구성했습니다 http://social.msdn.microsoft.com/Forums/en-US/hdinsight/thread/885efc22-fb67-4df8-8648-4ff38098dac6 HDInsight Preview server download http://www.microsoft.com/web/gallery/install.aspx?appid=HDINSIGHT-PREVIEW 구성 환경 - VirtualBox, Window Server 2012, 메모리 3G, 호스트 전용 네트워크 - master 1개, slave.. 더보기
HDInsight hadoop streaming C# map reduce test C#으로 맵 리듀스 코딩해서 HDInsight hadoop streaming 사용하는 방법 입니다HDInsight hadoop streaming C# map reduce test 관련된 다른 글hadoop streaming 소개Hadoop Streaming 구조HDInsight hadoop streaming C# map reduce test HDInsight hadoop-streaming-1.1.0-SNAPSHOT.jar을 이용 hadoop dfs -rmr a/hadoop dfs -mkdir a/hadoop dfs -put map.exe a/hadoop dfs -put reduce.exe a/hadoop dfs -put pic.txt a/필요한 파일을 하둡으로 put hadoop jar hadoop-st.. 더보기
hadoop streaming 소개 hadoop streaming 소개 영문 원문 주소http://hadoop.apache.org/docs/stable/streaming.html 위 영문 문서 위쪽 기본 내용을 번역 했습니다 관련된 다른 글hadoop streaming 소개Hadoop Streaming 구조HDInsight hadoop streaming C# map reduce test Hadoop streaming 하둡 스트리밍은 Hadoop배포와 함께 제공되는 유틸리티입니다이 유틸리티는 당신이 스크립트 또는 실행 파일로 만든 mapper 및 reduce로 Map/Reduce job을 작성하고 실행할 수 있습니다 $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar -input m.. 더보기
HDInsight hive ODBC 0.4.0이전 버전과 이후 버전 비교 HDInsight hive ODBC 0.4.0이전 버전과 이후 버전 비교입니다 정확하게 언제 바뀐 ODBC인지는 모르겠습니다다만 2013년 3월 25일 HDInsight가 0.4.0.0으로 업데이트 되면서 hiveODBC를 새로 받아 봤는데 변경된 내용들이 있어서 정리합니다 아래 설명은 제가 확인한 3월 25일 기준으로 눴습니다 그림으로 보시면 이렇습니다예전 Hive ODBC버전에서는 0.4.0.0에 접근이 안됩니다3월 25일 버전에서 HDInsight 0.3.0버전에도 접근 안될거라는 예상을 해 봅니다 추가로 엑셀 2013에 hive버튼이 보이지 않습니다 아래는 그와 관련해서 해결해보려고 시도한 내용을 정리 했습니다 ODBC접근 테스트는 엑셀에서 해봤습니다 EXCEL 옵셕 -> 추가기능 -> 관리 ->.. 더보기
Pig 동작 과정- 실행 계획 Pig 동작 과정- 실행 계획 Pig Latin으로 적은 명령은 논리적,물리적 실행 계획으로 변환되고 이것이 다시 Map Reduce 실행 계획으로 변환 후 실행됩니다 더보기
Hadoop Streaming 구조 관련된 다른 글hadoop streaming 소개Hadoop Streaming 구조HDInsight hadoop streaming C# map reduce test 이미지 출처 http://chiangbing.blogspot.kr/ Hadoop Streaming은 stdin과 stdout을 이용해서 map.exe와 reduce.exe에 데이터를 주고 받습니다 ① map.exe에 데이터를 전달 할 때 의 데이터를 key + \t + value형식으로 변환해서 stdin으로 전달합니다 ② map.exe의 stdout의 데이터 key + \t + value형식의 데이터를 형식으로 변환해서 mapper에게 전달합니다 ③ hadoop 프레임 워크에서 정렬과 병합 과정을 거칩니다 형식의 데이터가 됩니다 ④ hado.. 더보기