한글영어구분 Archives

파일에서 한 글자씩 스캔하는 방법

기준 sooopd
2019-04-13
Python

네이버 지식인에서 줏어든 문제 중에 이런게 있었다. 한글과 영문, 기호가 섞여 있는 내용으로 된 매우 큰 텍스트 파일이 있는데, 여기서 세 글자씩 가져와서 처리하고 싶다는 것이다.

이런 경우라면 텍스트 파일을 통째로 읽어들여서 큰 문자열로 로드한 후 앞에서부터 세글자씩 subscript해서 사용하면 된다. 그런데 문제는 이 파일이 매우 크다는 것이다. 그래서 이진 파일로 조금씩 읽어서 어떻게 한글/영문 관계 없이 세 글자씩 묶어서 처리할 수 있을까? 해당 텍스트 파일의 인코딩이 UTF8이라는 전제에서 접근해보자.