본문 바로가기

보물창고/IT 정보

UTF-8으로 XML 문서 인코딩하기 (힌트: 사이즈와는 관계 없음)

반응형


기사 원문으로 가시면 전체 기사를 볼 수 있습니다



요약: Unicode는 오늘날 이 지구상에 존재하는 모든 중요한 전산 문자 세트 중 으뜸이라 할 수 있다. UTF-8은 Unicode 문자 세트를 적절하게 바이너리 인코딩 한 것이다. 이 글은, 모든 XML 문서가 UTF-8에서만 독점적으로 생성되어야 한다고 주장한다. 보장할 수 있는 결과는 보다 강력한, 상호 운용성이 향상된 문서의 세계이다.



Google의 사이트맵 서비스는 최근 XML 커뮤니티에 작은 반향을 일으켰다. 모든 사이트맵이 Unicode의 UTF-8 인코딩으로만 퍼블리시 될 것을 요구했던 것이다. Google은 UTF-16 같은 Unicode 인코딩 대안 조차도 허용하지 않았다. ISO-8859-1 같은 비 Unicode 인코딩은 더 말할 나위도 없다. 기술적으로, Google은 비순응 XML 파서를 사용하고 있다는 것을 의미한다. 왜냐하면 XML Recommendation에서는 "모든 XML 프로세서는 Unicode 3.1의 UTF-8과 UTF-16 인코딩을 허용해야 한다." 라고 명시되어 있기 때문이다. 하지만 이것이 실제로도 큰 문제인가?

누구나 UTF-8을 사용할 수 있다!

Figure 1. Eclipse에서 디폴트 문자 세트 변경하기

스팩

중국어, 일본어, 한국어

강건함


요약
국제화가 점점 진행되는 요즘, 언어와 정치적 경계는 날마다 흐려지고 있고 지역에 의존하는 문자 세트는 더 이상 쓸모가 없다. Unicode는 지구 상의 많은 지역에 걸쳐 상호운용 되는 유일한 문자이다. UTF-8은 그러한 Unicode에 맞는 올바른 인코딩이다.
레거시 ASCII 시스템과의 호환성을 비롯하여 광범위한 툴 지원이 가능하다.
프로세스가 단순하고 효율적이다.
오염이 덜 된다.
플랫폼 중립적이다.
문자 세트와 인코딩에 대한 논의를 마쳐야 할 시간이다. UTF-8은 좋은 선택이다.



기사 원문으로 가시면 에제 코드와 자세한 설명을 볼 수 있습니다
아이베엠 디벨로퍼 웍스 : http://www.ibm.com/developerworks/kr/


반응형