Home » Objective-C 한글의 초성을 분리하기

Objective-C 한글의 초성을 분리하기

유니코드 한글의 코드 값 구성 원리와 이를 토대로 각 음절의 초/중/종성을 분리하는 방법은 본 블로그의 다른 글들을 참고하면 되겠다. (원래 참조했던 외부글이 있지만, 시간이 오래 지나서 그런지 삭제되었다.)

유니코드 한글에서 초성을 분리하는 일은 그리 어렵지 않은데, 중성 및 종성으로 사용되는 28자, 21자의 간격을 이용해서 한글 자모 테이블의 초성의 인덱스를 구할 수 있다.

#import <Foundation/Foundation.h>
NSString* choseongWithString(NSString* text) {
  NSMutableArray<NSString*> *array = [
           NSMutableArray arrayWithCapacity:[text length]];
  // unichar = unsigned short
  unichar c, f;
  NSString *res;
  int i;
  for(i=0;i<[text length];i++) {
    c = [text characterAtIndex:i];
    // 한글인지 코드범위 검사
    if (c >= 0xAC00 && c <= 0xD7A3) {
      // 초성자모 코드로 변경
      f = ((c - 0xAC00) / 28 ) / 21 + 0x1100;
    } else {
      f = c;
      [array addObject:[NSString stringWithFormat:@"%C", f]];
  }
  return [array componentsJoinedByString:@""];
}

여기서 한가지 문제는 위 코드로 구한 초성 값은 한글 자모의 문자라는 것이다. 한글자모의 코드가 연속되는 경우, 플랫폼에 따라서는 자동으로 합자가 생성되기도 하기 때문에, “안녕하세요”를 위 함수로 초성을 추출하면 “ㅇㄶㅅㅇ” 가 되는 문제가 있다.

이를 해결하려면 합자로 합성되는 자모 테이블이 아닌 낱자를 위한 Hangul Compatible Jamo 테이블의 코드를 사용해야 한다. 한글자모를 낱자자모로 변경하는 공식은 아직 찾아보지 않았는데, 유니코드 문자표에 따르면 해당 글자 이름을 영어로 표기하고 코드값을 표시해주고 있다. 이런 자료들을 긁어모아서 적당히 가공하면 글자이름-코드의 쌍을 얻을 수 있는데, 한글자모와 낱자로부터 코드 변환을 위한 맵을 구할 수 있다.

예를 들어 의 경우, 초성으로 쓰이는 ‘ㄱ’과 종성으로 쓰이는 이 있고, 낱자로 쓰이는 이 있다. 이 때 각각의 이름과 코드 값은 다음과 같다.

  • "CHOSEONG KIYEOK" : 0x1100
  • "JONGSEONG KIYEOK" : 0x11A8
  • "KIYEOK" : 0x3131

따라서 자모의 코드로부터 글자 이름을 구한 다음, 글자이름을 공백으로 갈라 뒤의 이름만 취해서 그 이름의 낱자의 코드를 얻으면 자모 코드와 낱자 코드를 연결하는 맵핑이 만들어진다.

Objective-C 에서는 정수-정수를 맵핑하려면 NSNumber를 사용해서 사전을 만들면 된다. 이때 코드값에 해당하는 unicharunsigned short의 별칭이므로, [number unsingedShortValue]를 통해서 NSNumber로 부터 다시 얻어낼 수 있다.

다음 코드는 거의 9년만에 다시 작성한 초성분리기 코드이다. 단일 파일로 작성했으며, 자모가 아닌 낱자의 한글 초성으로 변환한다. 시간나면 Swift 버전도 만들어봐야겠다.

“Objective-C 한글의 초성을 분리하기”의 2개의 댓글

  1. 핑백: [자바스크립트] 한글 초,중,종성을 구하기 | Wireframe

  2. 핑백: [자바스크립트] 한글의 초성, 중성, 종성 분리하기 | Wireframe

댓글 남기기