Notepad++ - 특정 패턴의 단어나 문구만 추출하여 정리하기

최근에 텍스트로 된 csv, json 파일로 된 데이터를 가지고 이리 저리 엑셀과 씨름할 일이 많다보니 의외로 notepad++의 덕을 많이 보고 있습니다. 데이터를 포맷팅하거나 찾기/바꾸기 외에도 제품번호나 주문번호 같은 특정한 규격의 정보를 큰 텍스트 파일에서 추출하기도 하고, 엑셀에서 복사한 칼럼을 (붙여 넣으면 여러 라인의 텍스트가 되는데) 컴마로 연결하는 등의 일을 하게 됩니다. 오늘은 평소에는 잘 쓰지 않다가 이런 일을 하면서 유용함을 발견하게 된 몇 가지 기능들을 소개하고자 합니다.

먼저 제목에서도 소개했던 특정 패턴의 단어나 문구만을 추출하는 방법입니다. notepad++는 원래도 강력한 정규식을 활용한 찾기/바꾸기 기능을 자랑하는 편집기입니다. 그런데 보통은 특정한 패턴에 매치되는 영역을 없애거나, 포맷팅했지 그 부분만 추출하는 것에 대해서는 별로 생각해보지 않았더랬습니다.

찾기/바꾸기를 이용한 추출

아래 그림은 enum으로 정의된 언어 목록입니다. 이 중에서 L_JSON이 몇 번째에 해당하는지를 빨리 찾고 싶습니다. 물론 손가락으로 짚어보면서 하나하나 세어보는 방법도 있겠습니다만, 이런 목록이 수 백, 수 천 개의 길이라면 그러고 싶지는 않을 겁니다.

찾기/바꾸기를 이용해서 필요한 부분을 추출해봅시다. 추출은 필요하지 않은 부분을 삭제한다는 것과 같습니다. 그러면 '필요하지 않은' 부분은 공백이나 개행으로, 필요한 부분은 원래 매칭된 그룹 그대로 치환하면 되지 않을까요?

찾을 패턴 : ((L_\w+)|.)
바꿀 패턴 :  $2\n

위 명령은 패턴에 매치하는 단어 혹은 패턴에 매치하지 않는 한 글자를 치환합니다. 찾고자하는 패턴(L_언어이름)이 없으면 개행문자로, 있으면 그 이름 뒤에 개행문자로 치환합니다.

이 방법의 단점은 매치되지 않는 글자 한 개가 하나의 라인으로 치환된다는 점, 그리고 파일이 크면 시간이 아주 오래 걸린다는 점입니다.

어쨌든 이렇게 원하는 부분만 남겼다면, Line Operation 메뉴에서 빈 줄을 삭제합니다. 그리고 원하는 언어가 몇 번째에 있는지를 빠르게 찾으려면 행번호를 보면 되겠죠.

자동으로 번호 매기기

행번호 하니까 생각나는 기능 한 가지를 더 소개합니다. notepad++의 'column editor' 기능을 사용하면 선택한 영역의 앞에 특정한 텍스트나 숫자를 자동으로 삽입할 수 있습니다.

ctrl + A를 눌러 전체 선택한 후 다시 alt + C를 눌러 칼럼 에디터를 열어줍니다. 아래 왼쪽과 같이, "Number to Insert"를 선택하고 시작 값, 증가값, 정렬 문자를 지정해주면 오른쪽과 같이 번호가 붙게 됩니다.

마크를 사용한 추출

마크는 특정한 텍스트의 일부분을 하이라이트하는 기능입니다. 각각의 마크는 시각적으로도 강조되어 표시되지만, 위치 정보를 가지고 있기도 합니다. 마크는 찾기 팝업의 기능 중 하나로 사용 가능한데요, 특정 패턴을 찾아서 마크로 만들어 놓으면 각 마크 사이를 빠르게 탐색할 수도 있고, 모든 마크된 단어를 한 번에 복사할 수 있습니다.

한 번에 복사할 수 있다면, 복사한 다음 나머지를 지우고 붙여넣으면 원하는 부분만 추출한 셈이 되는거죠.

마크는 ctrl + M 을 눌러서 실행할 수 있습니다. 찾고자하는 패턴을 입력한 후 Mark All 을 클릭하면 모든 매치에 마크처리가 됩니다. 이 후 다시 "Copy Marked Text" 한 후, ctrl + A, ctrl + V 하면 짠~하고 원하는 부분만 추출한 결과를 쉽게 만들 수 있습니다.

마크/스타일의 다른 활용 방법

'찾기'의 기능 중에서 마크를 이용해서 강조한 부분들을 'Find Mark'라고 부릅니다. 보통 찾기 창에서 F3키를 누르면 다음 검색 결과 부분으로 빠르게 이동할 수 있는데, 비슷하게 ctrl + 0 키를 누르면 이 검색 마크 사이를 빠르게 순환하면서 오갈 수 있습니다.

마크는 일종의 '스타일'인데, 스타일은 특정한 단어에 강조색을 입히는 것입니다. 마크와는 다르게 패턴이 아닌 동일한 단어에 대해서만 적용이 가능합니다. 하지만 선택 영역과 달리 항상 강조되어 있고, ctrl + 1 등의 단축키로 항상 다음/이전 스타일의 위치로 빠르게 이동할 수 있습니다.

스타일을 만드는 방법은 간단합니다. 편집기 상에서 특정한 단어를 선택한 후, 오른쪽 클릭으로 "style all occurance of token..."을 선택한 후 원하는 색상을 선택하면 됩니다.

Read more

워드프레스에서 고스트로 이전

워드프레스에서 고스트로 이전

이 글을 쓰면서도 믿기 힘든 사실인데, 블로그라는 걸 처음 시작한지가 20년이 되었습니다. 이글루스에서 처음 시작했다가, SK컴즈가 인수한다고 발표함과 동시에 워드프레스로 플랫폼을 옮겼죠. 워드프레스오 옮긴 이후에는 호스팅 환경을 이리 저리 옮기긴 했지만 거의 18년 가까이 워드프레스를 사용해온 것 같습니다. 그 동안 워드프레스는 블로깅 툴에서 명실상부한 범용CMS로 발전했습니다. 사실 웬만한 홈페이지들은 이제

By sooop
띄어쓰기에 대한 생각

띄어쓰기에 대한 생각

업무 메일을 쓸 때 가장 많이 쓰는 말 중에 하나가 메일 말미에 ‘업무에 참고 부탁 드립니다.‘인데요, 어느 날부터 아웃룩에서 이 ‘부탁 드립니다’가 틀렸다고 맞춤법 지적을 하기 시작했습니다. 맞는 말은 ‘부탁드립니다’라고 붙여 쓰는 거라고. 사실 아래아한글 시절부터 이전의 MS워드까지, 워드프로세서들의 한국어 맞춤법 검사 실력은 거의 있으나 마나 한

By sooop

구글 포토에서 아이클라우드로 탈출한 후기

한 때 구글 포토가 백업 용량을 무제한으로 제공해 주겠다고해서, 구글 포토를 사용해서 사진을 백업해왔습니다. 물론 이 이야기의 결말은 저나 이 글을 읽고 있는 여러분이나 모두 알고 있습니다. 사실 AI에게 학습 시킬 이미지 데이터를 모으기 위한 것일 뿐이라거나 하는 이야기는 그 당시에도 있었습니다만, 에이 그래도 구글인데 용량은 넉넉하게 주겠지…하는 순진한

By sooop

Julia의 함수 사용팁

연산자의 함수적 표기 Julia의 연산자는 기본적으로 함수이며, 함수 호출 표기와 같은 방식으로 호출하는 것이 가능합니다. 또한 그 자체로 함수이기 때문에 filter(), map() 과 같이 함수를 인자로 받는 함수에도 연산자를 그대로 적용하는 것이 가능합니다. 특히 + 연산자는 sum() 함수와 같이 여러 인자를 받아 인자들의 합을 구할 수 있습니다. 2 + 3 # = 5 +(2,

By sooop