본문 바로가기

기타/IT 지식

[ IT 지식 ] 텍스트 디지털화하기: 아스키코드, 유니코드

반응형

컴퓨터가 정보를 표현하는 방식에 관해 다음 세 가지 기본 아이디어를 바탕으로 살펴보겠다.

첫째, 컴퓨터는 디지털 처리 장치다. 즉, 컴퓨터는 불연속적인 덩어리로 입력받고, 불연속적인 값을 갖는 정보를 저장하고 처리한다. 디지털 정보는 기본적으로 수에 불과하다. 반면 아날로그 정보는 연속적으로 변하는 값을 뜻한다.

둘째, 컴퓨터는 정보를 비트로 표현한다. 비트는 이진 숫자로, 0 또는 1인 수이다. 컴퓨터는 정보를 비트로 표현한다. 컴퓨터 내부의 모든 것은 사람들에게 익숙한 십진수가 아닌 비트로 표현된다.

셋째, 비트는 모여서 더 큰 정보를 표현한다. 숫자, 문자, 단어, 이름, 소리, 사진, 영화부터 이러한 정보를 처리하는 프로그램을 구성하는 명령어에 이르기까지 모두 비트가 모여 표현된다.

텍스트 디지털화하기

일반적인 텍스트를 생각해봤을 때 A는 1, B는 2같은 식으로 각 문자에 고유한 번호를 부여할 수 있다. 이대로도 괜찮은 디지털 표현이 된다. 실제로도 이 방법이 그대로 사용되고 있는 데, 미국에서 표준화한 표현법에서는 A부터 Z가 65부터 90, a부터 z는 97부터 122, 숫자 0부터 9가 48부터 57, 구두점 등의 다른 문자는 다른 값을 갖는다는 점만 차이가 있다. 이 표현 방식은 아스키코드(ASCII, American Strandard Code for Information Interchange)라고 하며, 1963년에 표준화 되었다.
다양한 지역 또는 언어권마다 많은 문자 집합 표준이 있지만, 전 세계적으로는 유니코드(Unicode)라는 단일 표준으로 수렴하고 있다. 유니코드는 모든 언어에 있는 모든 문자에 고유한 숫자 값을 지정한다. 그렇게 하면 받애한 집합이 되는 데, 인간이 문자 시스템을 만드는 데 매우 창의적이기는 했지만 그다지 체계적이지는 않았기 떄문에 이런 상태가 되었다. 유니코드에는 14만개가 넘는 문자가 있고 그 수는 꾸준히 늘고 있다. 예상대로 중국어 같은 아시아 문자가 상당 부분을 차지하지만, 그 밖에도 무수한 문자가 포함되어 있다. 유니코드 웹사이트(unicode.org)에는 모든 문자를 보여주는 도표가 있다.
결론적으로, 디지털 표현은 이 모든 종류의 정보와 더불어 숫자 값으로 변환될 수 있는 어떤 것이든 나타낼 수 있다. 또한 숫자에 불과하므로 디지털 컴퓨터로 처리될 수 있다. 게다가 보편화된 디지털 네트워크인 인터넷을 통해 다른 어떤 컴퓨터로도 복사될 수 있다.


- 출처: <1일 1로그 100일완성 IT지식>

반응형