보물창고/Big Data2014.10.21 22:56





윈도우 하둡 window hadoop HDinsight Azure 압축 호환에 관련된 글 (Gzip, Bzip2, LZO, LZ4, snappy)










  • HDInsight에서 LZOP 압축을 사용할 수 있는지에대한 자료를 찾다가 위의 문서를 찾았습니다 해당 자료는 2013년 1월에 만들어진 자료지만 제가 찾은 LZOP에대한 정보는 어느정도 알 수 있는 자료였습니다

  • 하둡 0.20+ 버전부터 GNU라이센스 문제로 하둡배포판에서 LZOP가 빠졌다고합니다 하지만 직접 다운로드해서 추가하면 사용할 수 있도록 포맷을 지원한다고 합니다





아래 글을 보고 사용할 수 있다고 판단되어집니다


LZOP


Note: LZO has been removed from Hadoop in version 0.20+, because the LZO libraries are licensed under the GNU General Public License (GPL). If you need to use LZO, the format is still supported, so you can download the codec separately and enable it manually in your Hadoop cluster.


Depending on your version of Hadoop, you might need to download the LZOP codec should separately and enabled the codec manually in your Hadoop cluster.




https://github.com/twitter/hadoop-lzo

이 링크에 리눅스와 윈도우에 lzo를 설치하는 방법이 안내되고 있습니다





문서에 포함된 사용 가능한 압축 포맷 입니다


Bzip2

Bzip is a popular tool which includes a version for Windows.

 

Download site

http://gnuwin32.sourceforge.net/packages/bzip2.htm

Supported codecs

BZip2

License

This library has been released under the GPL license.

Supported platforms

Apache Hadoop distribution

HDInsight

 


Gzip

The latest version of the suite includes both Bzip2.exe and Gzip.exe.

 

Download site

http://gnuwin32.sourceforge.net/packages/gzip.htm

Supported codecs

GZip

License

This library has been released under the GPL license.

Supported platform

Apache Hadoop distribution

HDInsight

 


LZOP

Lzop is a file compression utility very similar to Bzip2. The LZO algorithm is optimized for speed and does not compress as much. This can be either an advantage or disadvantage, depending on whether you want speed or space.

Download site

http://www.lzop.org/

Supported codes

LZO

License

LZOP is Open Source software but is copyrighted, and is distributed under the terms of GNU General Public License (GPL).

Supported platform

Apache Hadoop distribution only.

Depending on your version of Hadoop, you might need to download the LZOP codec should separately and enabled the codec manually in your Hadoop cluster.

 


LZ4

LZ4 is a very fast and lossless compression algorithm.

If you are using Hadoop on Windows, you can also use the LZ4 compression algorithm through a command-line utility and a small Windows application.  In our tests we used the command line tool and recommend it over the standalone application.

 

Download site

Standalone Windows application

Command Line Utility for Windows

http://www.lzop.org/

http://sd-1.archive-host.com/membres/up/182754578/LZ4_install_v13b.exe

http://sd-1.archive-host.com/membres/up/182754578/LZ4v13b.zip

Supported codecs

LZ4

License

LZ4 is currently included in the Hadoop distribution.

Supported platforms

Apache Hadoop distribution only

 


7Zip

7Zip is a powerful compression tool that we highly recommend for use as a local compression processor. It is capable of maximizing computation resources on the local computer, and the user can configure the number of threads that can be used for file compression.

7zip provides several interfaces for interacting with the compression tools:

·         Command line interface

·         Graphical interface

·         Microsoft windows shell integration

7zip has its own documentation, and it is easy to learn how to use the shell to process files. To view the 7ZIP documentation, open the directory where you installed 7zip, and look for the help documentation (typically provided as standalone document or text file.)

 

Download site

http://www.7-zip.org/download.html

Supported codes

BZip2, Gzip

(7Zip does not provide LZO compression.)

License

7Zip is open source software; most of the source code is under the GNU LGPL license.

Supported platforms

Apache Hadoop distribution

HDInsight


신고





Posted by 파란물
책-冊-Book/킨들2012.04.18 21:07







e-book 전자책 텍스트파일(txt) 엔터 없애기 문서 정렬 변환하기 [텍스트 컨버터] 뉴라인 



인터넷에 보면 txt파일로 책이 돌아 다니는 것을 볼 수 있습니다 

이 책들은 전자책으로 볼려고 할때 임의로 많이 쳐진 엔터 때문에 전자책에서 보기 힘들때가 있습니다


이 문제를 해결 하기위한 프로그램 입니다







프로그램을 시작하면 보이는 화면 입니다

1번 화살표에 원본 txt파일을 선택하고

2번 화살표에 저장될 위치와 저장될 파일 이름을 적습니다


3번을 누르면 변환이 완료 됩니다


각 버튼 사이에 옵션을 선택할 수 있습니다

옵션은 몇번 변경해 가면서 원하는 변환이 될때까지 직접 확인해 보는것이 좋습니다









변환을 누르면 변환 성공 했다는 다이얼 로그 창이 뜹니다










 


변환된 텍스트 파일 모습입니다

왼쪽 스샷이 정렬되기전 엔터가 많이 있는 모습이고

오른쪽 스샷이 변환된 후 엔터가 한 라인으로 정렬된 것을 볼 수 있습니다






textConverter.exe

변환 프로그램





응용방법


PDF파일의 글을 text로 옮김 

-> Textconverter.exe프로그램을 이용해서 텍스트 정렬 

-> 소유하고 있는 전자책 사이즈로 PDF파일을 만들어 옮김





신고





Posted by 파란물






IBM에서 제공하는 무료 오피스로 워드 엑셀 파워포인트를 포함하고 있습니다

회원 가입후 받으셔야 하고 맥버전도 있습니다

2008년 5월 1.0버전이 릴리즈되어 현재 3.0버전이 2010년 10월에 릴리즈 되었습니다



영문 다운  http://symphony.lotus.com/software/lotus/symphony/home.nsf/home
한글 소개  http://www-01.ibm.com/software/kr/lotus/symphony.html






Documents
spreadsheets
presentations
어플리케이션 개발

저작자 표시 비영리 변경 금지
신고





Posted by 파란물