태그 보관물: 정규식

Objective-C / Swift :: NSRegularExpression

NSRegularExpression

Foundation은 유니코드 문자열에 대해서 정규식을 적용할 수 있는 NSRegularExpression 클래스를 제공한다. 이 클래스의 인스턴스는 컴파일된 정규식 패턴을 나타낸다. 여기서 사용되는 정규식 표현 패턴은 ICU의 안을 따르고 있다. (파이썬 정규식과 거의 유사하다.)

http://userguide.icu-project.org/strings/regexp

기본적으로 정규식 객체는 자신의 패턴을 문자열에 적용해서 매치 결과들에 대해서 실행되는 블럭 이터레이터를 제공한다. 그 외에도 매치 결과를 배열로 리턴하거나, 매치의 수를 찾거나, 첫 매치를 찾는 등의 편의 메소드도 제공한다.

각각의 매치 결과는 NSTextCheckingResult 객체인데, 이는 전체 매치의 범위(NSRange) 및 개별 캡쳐 그룹의 범위값을 가지고 있다.

객체 생성

기본적인 정규식 객체 생성 방법은 다음과 같다.

NSError *error = nil;
NSRegularExpression *regex = [NSRegularExpression 
            regularExpressionWithPattern:@"\\b(a|b)(c|d)\\b"
            options:NSRegularExpressionCaseInsensitive
            error:&error];

NSRegularExpressionCaseInsensitive는 대소문자 구분없는 매칭을 위한 옵션이다. swift에서는 .CaseInsensitive로 간소화되었다.(NSRegularExpressionOptions)

매치개수 세기

매치되는 부분의 개수는 numberOfMatchesinString:options:range:로 셀 수 있다. 여기서 옵션은 NSMatchingOptions의 값으로, 거의 nil을 쓴다고 보면 된다.

NSUInteger numberOfMatches = [regex numberOfMatchesInString:str
                                    options:0
                                    range:NSMakeRange(0, [str length])];

첫번째 매치 결과에 관심이 있다면 rangeOfFirstMatchInString:options:range:를 쓰면 된다.

NSRange rangeOfFirstMatch = [regex rangeOfFirstMatchInString:str options:0 range:NSMakeRange(0, [str length])];
if(!NSEqualRanges(rangeOfFirstMatch, NSMakeRange(NSNotFound, 0))) {
    NSString *substringForFirstMatch = [str substringWithRange:rangeOfFirstMatch];
}

모든 매치 결과는 matchesInString:options:range:로 구한다.

NSArray<NSTextCheckingResult> *matches = [regex matchesInString:str
                                options:0 range:NSMakeRange(0, [str length])];
for (NSTextCheckingResult *match in matches) {
    NSRange matchRange = [match range];
    NSRange firstHalfRange = [match rangeAtIndex:0];
    NSRange secondHalfRange = [match rangeAtIndex:1];
}

매치 결과의 범위 값은 NSTextCheckingResult-range로 구하는데, 만약 캡쳐링 그룹이 있다면 -rangeAtIndex:로 구한다. 그룹번호를 넣으면 되고, 그룹번호가 0인 경우에는 매치 전체의 범위가 된다.

편의상 첫번째 매치를 구하는 함수도 제공한다. -firstMatchInString:options:range:이고 사용법은 동일하다.

블럭이터레이터

-enumerateMatchesInString:options:range:usingBlock:은 각각의 매치에 대해서 블럭을 실행시킬 수 있는 메소드이다.

__block NSUInteger count = 0;
[regex enumerateMatchesInString:str options:0 range:NSMakeRange(0, [str length] usingBlock:^(NSTextCheckingResult *match, NSMatchingFlags flags, BOOl *stop){
    NSRange matchRange = [match range]; // 각 매치 전체의 범위
    NSRange firstHalfRange = [match rangeAtIndex:1]; // 첫 그룹
    NSRange secondHalfRange = [match rangeAtIndex:2]; // 두 번째 그룹
    if (count++ >= 100) *stop = YES; // 100번째 매치를 만나면 그만둔다.
})]

바꾸기

예시로 …

NSString *modifiedString = [regex stringByReplacingMatchesInString:str
                            options:0 range:NSMakeRange(0, [str length])
                            withTemplate:@"$2$1"];

regex conditional

정규식의 조건절

조건절은 정규식에서는 흔히 쓰이는 표현은 아니다. 게다가 모든 정규식 엔진이 이를 지원하는 것도 아니다. 조건절을 사용해야 하는 경우라면 대부분의 경우 프로그래밍 로직으로 이를 보완하는1 형태로 많이 쓰이고 있고, 정규식 자체의 조건절이 꼭 필요한 케이스가 널리 알려져 있지 않기도 하다. 계속 읽기