보물창고/Big Data2013.04.09 23:00









윈도우 하둡 HDInsight 0.4.0 클러스터 구성 - window hadoop HDInsight cluster setting






HDInsight 포럼에 있는 글을 참고 하여 클러스터를 구성했습니다

http://social.msdn.microsoft.com/Forums/en-US/hdinsight/thread/885efc22-fb67-4df8-8648-4ff38098dac6




HDInsight Preview server download

http://www.microsoft.com/web/gallery/install.aspx?appid=HDINSIGHT-PREVIEW







구성 환경
 - VirtualBox, Window Server 2012, 메모리 3G, 호스트 전용 네트워크

 - master 1개, slave 3개







HDInsight 0.4.0버전(130315) 이용하여 cluster 구성하였습니다

9번에서 0.3.0 버전과는 차이가 있으니 참고하고 봐주세요

리눅스 멀티 노드 구성과 대부분 비슷합니다








1. 마스터와 노드가 적절한 IP 가지고 있는지 확인 하세요






2. 모든 노드에 있는 방화벽과 포트 차단 소프트웨어를 끄세요

- 노드끼리 서로 엑세스 권한이 있는지 확인합니다






3. 마스터와 모든 노드에 있는 %WinDir%\system32\drivers\etc\hosts 파일을 편집합니다

다음과 같은 내용을 추가 합니다

<ip-to-master> master
<ip-to-node1> node1
......
<ip-to-nodeN> nodeN






4. 모든 노드의 C:\Hadoop\hadoop-1.1.0-SNAPSHOT\conf\master 파일을 수정합니다

- master 하나만 적혀 있는지 확인하세요

- 호스트 파일에 입력한 내용과 일치해야 합니다






5. 모든 노드의 C:\Hadoop\hadoop-1.1.0-SNAPSHOT\conf\slave파일을 편집:

- 모든 slave 노드 이름을 추가합니다

- 호스트 파일에 입력한 내용과 일치 해야합니다

node1
...
nodeN






6. 마스터와 모든 노드에서 C:\Hadoop\hadoop-1.1.0-SNAPSHOT\conf\core-site.xml 수정합니다

- fs.default.name 속성을 찾아 hdfs://master:8020으로 변경합니다






7. 마스터와 모든 노드에서 C:\Hadoop\hadoop-1.1.0-SNAPSHOT\conf\mapred-site.xml파일을 수정합니다

- 로컬 호스트에 대한 모든 참조 값을 master 수정합니다






8. 마스터와 모든 노드에서 C:\Hadoop\hadoop-1.1.0-SNAPSHOT\conf\hdfs-site.xml파일을 수정합니다

- 로컬호스트 대신 master 모두 수정합니다

- dfs.replication 설정을 찾아 원하는 복제 개수를 적어줍니다 (일반적으로 3)






9. 마스터와 슬레이브 노드 에서 command창을 열고 실행 스크립트 start-onebox.cmd 실행시킵니다

- 파일은 C:\Hadoop 있습니다

- master slave 원하는 설정에 따라 프로세스를 정지시켜 구성합니다

- 경험상 노드를 먼저 실행 시키고 마스터를 실행시키면 master slave 한번에 인식합니다







10. 설정은 사용하던 하둡 시스템에서는 바로 동작하지 않을 있습니다

- 사용하던 시스템에서 구성하려면 dn폴더를 찾아 삭제 시도해 보세요

- 최초 HDInsight 설치한 시스템에서 테스트를 권장합니다






11. HDInsight 0.4.0 cluster 구성 sqoop, pig, hive, streaming 테스트 확인 했습니다







신고





Posted by 파란물
보물창고/Big Data2013.03.29 23:30









hadoop streaming 소개 

영문 원문 주소

http://hadoop.apache.org/docs/stable/streaming.html


위 영문 문서 위쪽 기본 내용을 번역 했습니다





관련된 다른 글

hadoop streaming 소개

Hadoop Streaming 구조

HDInsight hadoop streaming C# map reduce test







Hadoop streaming


하둡 스트리밍은 Hadoop배포와 함께 제공되는 유틸리티입니다

이 유틸리티는 당신이 스크립트 또는 실행 파일로 만든 mapper 및 reduce로 Map/Reduce job을 작성하고 실행할 수 있습니다



$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar -input myInputDirs -output myOutputDir -mapper /bin/cat -reducer /bin/wc



How Streaming Works


위의 예에서, mapper과 reduce모두 stin(line by line)으로 입력을 읽고 stdout으로 출력을 실행합니다

이 유틸리티는 Map/Reduce job을 만듭니다

적절한 클러스터 job을 제출하고 완료 될 때까지 진행 상황을 모니터링 할 수 있습니다


mappers에 실행 파일이 지정된 경우, 각 mapper 테스크는 mapper를 초기화하는 별도의 프로세스로 실행 파일을 실행 합니다

mapper 테스크가 실행되면서, line으로 입력을 변환하고 프로세스의 stdin으로 line를 feed합니다.

한편 mapper는 mapper 프로세스의 stdout에서 line으로 출력을 모으고 key/value쌍으로 각 행을 변환후 mapper의 출력으로 모입니다

기본적으로, 탭 문자를 기준으로 앞쪽은 key이고 뒤쪽은 value가 될 것입니다(탭 문자 제외)

line에 탭 문자가 없는 경우, 전체 line을 key로 간주하고 value는 null입니다

나중에 설명하지만 사용자가 정의할 수도 있습니다


reduce에 실행 파일이 지정된 경우, 각 reduce 테스크는 reducer을 초기화 하는 별도의 프로세스로 실행파일을 실행 합니다

reducer 테스크가 실행되면서 line에 입력 key/value 쌍으로 변환하고 프로세스의 stdin입력으로 line를 feed합니다

한편, reducer는 프로세스의 stdout에 line형식으로 출력을 모으고 key/value쌍으로 각 행을 변환 후 reduce의 출력이 모입니다

기본적으로, 탭 문자를 기준으로 앞쪽은 key이고 뒤쪽은 value가 될 것입니다(탭 문자 제외)

나중에 설명하지만 사용자가 정의할 수도 있습니다


이 Map/Reduce프레임 워크 및 스트리밍 maper/reducer사이의 통신프로토콜의 기초 입니다







출처 : http://chiangbing.blogspot.kr/

key,value 데이이터가 mapper로 가면 hadoop streaming로 key + \t + value형식으로 변환되어 STDIN으로 map.exe에 전달이 됩니다 map.exe는 연산 후 STDOUT으로 key + \t + value 형식으로 출력하면 mapper는 key,value로 변환 후 정렬과 병합 과정을 거치고 reducer로 전달이 됩니다

reduce는 hadoop streaming으로 key + \t + value형식으로 변환된 데이터를 STDIN reduce.exe로 전달합니다 reduce.exe는 연산 후 STDOUT으로 key + \t + value 형식으로 출력하면 reduce는 key,value로 변환 후 output데이터를 만듭니다

신고





Posted by 파란물

티스토리 툴바