Notepad++에서 특정 패턴의 문구만 추출하여 정리하기

Notepad++에서 특정 패턴의 문구만 추출하여 정리하기
Photo by Efe Yağız Soysal / Unsplash

최근에 텍스트로 된 csv, json 파일로 된 데이터를 가지고 이리 저리 엑셀과 씨름할 일이 많다보니 의외로 notepad++의 덕을 많이 보고 있습니다. 데이터를 포맷팅하거나 찾기/바꾸기 외에도 제품번호나 주문번호 같은 특정한 규격의 정보를 큰 텍스트 파일에서 추출하기도 하고, 엑셀에서 복사한 칼럼을 (붙여 넣으면 여러 라인의 텍스트가 되는데) 컴마로 연결하는 등의 일을 하게 됩니다. 오늘은 평소에는 잘 쓰지 않다가 이런 일을 하면서 유용함을 발견하게 된 몇 가지 기능들을 소개하고자 합니다.

먼저 제목에서도 소개했던 특정 패턴의 단어나 문구만을 추출하는 방법입니다. notepad++는 원래도 강력한 정규식을 활용한 찾기/바꾸기 기능을 자랑하는 편집기입니다. 그런데 보통은 특정한 패턴에 매치되는 영역을 없애거나, 포맷팅했지 그 부분만 추출하는 것에 대해서는 별로 생각해보지 않았더랬습니다.

찾기/바꾸기를 이용한 추출

아래 그림은 enum으로 정의된 언어 목록입니다. 이 중에서 L_JSON이 몇 번째에 해당하는지를 빨리 찾고 싶습니다. 물론 손가락으로 짚어보면서 하나하나 세어보는 방법도 있겠습니다만, 이런 목록이 수 백, 수 천 개의 길이라면 그러고 싶지는 않을 겁니다.

찾기/바꾸기를 이용해서 필요한 부분을 추출해봅시다. 추출은 필요하지 않은 부분을 삭제한다는 것과 같습니다. 그러면 '필요하지 않은' 부분은 공백이나 개행으로, 필요한 부분은 원래 매칭된 그룹 그대로 치환하면 되지 않을까요?

찾을 패턴 : ((L_\w+)|.)
바꿀 패턴 :  $2\n

위 명령은 패턴에 매치하는 단어 혹은 패턴에 매치하지 않는 한 글자를 치환합니다. 찾고자하는 패턴(L_언어이름)이 없으면 개행문자로, 있으면 그 이름 뒤에 개행문자로 치환합니다.

이 방법의 단점은 매치되지 않는 글자 한 개가 하나의 라인으로 치환된다는 점, 그리고 파일이 크면 시간이 아주 오래 걸린다는 점입니다.

어쨌든 이렇게 원하는 부분만 남겼다면, Line Operation 메뉴에서 빈 줄을 삭제합니다. 그리고 원하는 언어가 몇 번째에 있는지를 빠르게 찾으려면 행번호를 보면 되겠죠.

자동으로 번호 매기기

행번호 하니까 생각나는 기능 한 가지를 더 소개합니다. notepad++의 'column editor' 기능을 사용하면 선택한 영역의 앞에 특정한 텍스트나 숫자를 자동으로 삽입할 수 있습니다.

ctrl + A를 눌러 전체 선택한 후 다시 alt + C를 눌러 칼럼 에디터를 열어줍니다. 아래 왼쪽과 같이, "Number to Insert"를 선택하고 시작 값, 증가값, 정렬 문자를 지정해주면 오른쪽과 같이 번호가 붙게 됩니다.

마크를 사용한 추출

마크는 특정한 텍스트의 일부분을 하이라이트하는 기능입니다. 각각의 마크는 시각적으로도 강조되어 표시되지만, 위치 정보를 가지고 있기도 합니다. 마크는 찾기 팝업의 기능 중 하나로 사용 가능한데요, 특정 패턴을 찾아서 마크로 만들어 놓으면 각 마크 사이를 빠르게 탐색할 수도 있고, 모든 마크된 단어를 한 번에 복사할 수 있습니다.

한 번에 복사할 수 있다면, 복사한 다음 나머지를 지우고 붙여넣으면 원하는 부분만 추출한 셈이 되는거죠.

마크는 ctrl + M 을 눌러서 실행할 수 있습니다. 찾고자하는 패턴을 입력한 후 Mark All 을 클릭하면 모든 매치에 마크처리가 됩니다. 이 후 다시 "Copy Marked Text" 한 후, ctrl + A, ctrl + V 하면 짠~하고 원하는 부분만 추출한 결과를 쉽게 만들 수 있습니다.

마크/스타일의 다른 활용 방법

'찾기'의 기능 중에서 마크를 이용해서 강조한 부분들을 'Find Mark'라고 부릅니다. 보통 찾기 창에서 F3키를 누르면 다음 검색 결과 부분으로 빠르게 이동할 수 있는데, 비슷하게 ctrl + 0 키를 누르면 이 검색 마크 사이를 빠르게 순환하면서 오갈 수 있습니다.

마크는 일종의 '스타일'인데, 스타일은 특정한 단어에 강조색을 입히는 것입니다. 마크와는 다르게 패턴이 아닌 동일한 단어에 대해서만 적용이 가능합니다. 하지만 선택 영역과 달리 항상 강조되어 있고, ctrl + 1 등의 단축키로 항상 다음/이전 스타일의 위치로 빠르게 이동할 수 있습니다.

스타일을 만드는 방법은 간단합니다. 편집기 상에서 특정한 단어를 선택한 후, 오른쪽 클릭으로 "style all occurance of token..."을 선택한 후 원하는 색상을 선택하면 됩니다.