Drunken Lion

UTF-8 이란 무엇인가. 본문

나만 아는 이야기/태터연습

UTF-8 이란 무엇인가.

DrkLion 2007. 2. 27. 15:20

본문은 네이버 지식in에서 퍼왔음.. 원문 링크


테터 적용중에 ExoBud, Aquamp등이 잦은 오류를 발생시키고 있고,
Play List의 노래 제목마저 한글로 입력을 할수가 없는 지경이다.
짧은 웹 프로그래밍 지식으로는 정확한 원인 파악이 어렵지만,
Cafe24호스팅 서비스가 UTF-8로 되어있어서 일거란 생각이 든다.
태터툴즈 는 UTF-8에서만 정상작동을 한다고 해서 호스팅을 그리 신청했는데,
BGM플레이어들은 EUC-KR로 코딩되어 있기 때문인듯..
집에가면 수정해서 올려봐야겠다.. 이번엔 잘됐으면 좋겠는데...
흠흠...

컴퓨터를 사용하면서 종종 UTF-8라는 단어를 들어봤을 것입니다.

하지만 검색을 해보면,복잡한 기술적인 용어가 많아서

오히려 무슨 말인지 이해하기 어렵다는 말을 자주 듣습니다.


이 자리에서는 UTF-8(유니코드)에 대해 가장 기본적인 개념에 대해 소개하도록 하겠습니다.

따라서,기술적이고 복잡한 것들은 최대한 제외하기 위해 노력하였습니다.




UTF-8은 전세계 모든 문자를 동시에 표현할 수 있도록 만들어진 규약입니다.
컴퓨터에서 UTF-8이나 EUC-KR이런 것들이 보인다면,
아하,한글 표현과 어떤 관련이 있는 것이로군
이라고 생각하시면 됩니다.



UTF-8은 흔히 유니코드라고도 불립니다.
(UTF-8은 유니코드를 표현하기 위한 방식 중의 하나입니다.)



애초에 컴퓨터에서 문자를 표기할때 영어권 국가만 생각해서 만들었기 때문에,
전세계 각 나라들은 자기나라의 문자를 표현하기 위해 나름대로의 독자적인 꼼수를 사용해야 했습니다.
이러한 방법을 인코딩이라고 부릅니다.


우리나라는 한글을 표기하기 위해 EUC-KR라는 인코딩을 사용하였고,
일본은 Shift-JIS,중국은 GB2312,대만은 Big5,우크라이나는 KOI8-U..등등
결국 지구상에는 수십종류의 인코딩이 생기게 되었습니다.



하지만,이렇게 제각각의 길을 걷다 보니 문제가 되는 경우가 많았습니다.
흔히 ‘한글이 깨져 보인다‘거나 ‘이상한 글자가 보인다‘는 말은 이 과정에 문제가 생겼기 때문입니다.
외국에서 만든 프로그램이나 게임들은 한국어 환경에서 제대로 문자가 보이지 않는 경우가 많았고,
반대로 한글로 된 것들은 영문윈도우 등에서 제대로 표시되지 않습니다.
이것은 로마자 외의 문자를 가진 다른 나라도 마찬가지였습니다.



그래서 전세계의 수많은 기업들을 중심으로 이러한 문제와 혼란을 한큐에 해결하기 위한 노력이 진행되었습니다.
그리하여 탄생한 것이 유니코드(Unicode)입니다.
전세계 모든 글자들을 한곳에 몰아넣은 종합세트인 것이죠.


그 중에서 UTF-8이라는 방식이 가장 힘을 얻게 되었고,세계 표준으로 인정받고 있습니다.



UTF-8이 도입되면서 전세계 모든 문자를 동시에 표현할 수 있게 되었고,
따라서 서로간에 충돌이 일어나는 일이 없을 뿐만 아니라 다국어입력 또한 수월하게 되었습니다.



또한,UTF-8은 현존하고 있는 모든 문자를 포함할 뿐만 아니라,학술용도를 위해 인류 역사상 존재했던 문자들을 담을 수 있습니다.
한국어의 경우 현재 사용가능한 11172자의 한글 외에도
아래아,반치음 처럼,이제는 사라져 버린 옛날 문자인 한글고어도 표시할 수 있습니다.



윈도우의 경우 이미 윈도우98부터 유니코드를 채택하여 사용하고 있고,
앞으로도 점점 유니코드가 널리 사용될 것입니다.



하지만 여전히 문제가 되는 곳이 웹페이지 입니다.

흔히 한글파일명으로 된 그림이 보이지 않을때 ‘URL을 항상 UTF-8로 보냄옵션을 해제하라는 설명을 자주 봅니다.
물론 필요할 경우는 어쩔 수 없겠지만,이 방법은 단지 임시방편일 뿐이라는 사실을 알고 있어야 합니다.


아직까지 네이버를 비롯한 대부분의 사이트들은 UTF-8이 아닌 EUC-KR을 사용하고 있기 때문에 생기는 문제인데,
전세계 각 나라들이 서로간의 언어 충돌로부터 자유로워지기 위해서는
궁극적으로 UTF-8로 통일
되어야 할 것입니다.
현재는 과도기에 있기 때문에 다소 불편함을 겪는 것입니다.


이상으로,UTF-8의 기본적인 개념에 대하여 설명하였습니다.

좀더 자세한 기술적인 것에 대해 알고 싶으시다면 아래의 페이지를 방문해 보십시오.

http://www.unicode.org (유니코드 공식 홈페이지)

http://kldp.org/Translations/html/UTF8-Unicode-KLDP/UTF8-Unicode- KLDP.html (UTF-8 및 유니코드에 관한 FAQ모음)




Update!

예상대로 서버는 UTF-8로 셋팅되어 있었는데,
파일 저장방식은 euc-kr로 되어있어서 발생한 문제였다.
모든파일을 UTF-8로 재 저장하니, 스크립트 오류 없이 잘 재생된다 ^^

기쁘다!!