들어가며
이 시리즈는 텍스트 분석, 특히 토픽모델링 분석 과정에 대해 다룹니다.
SH 서울주택도시공사에서 연구 용역을 수행하며, 서울 주거 관련 상담사가 기록한 텍스트 데이터를 다룰 기회가 있었습니다. 쉽게 접하지 못하는 좋은 데이터를 가지고 저는 데이터 정제
와 분류할 카테고리를 지정하지 않고 텍스트를 분류하는 토픽모델링
을 수행했습니다.
시리즈 개요
제가 한 작업은 아래 그림과 같으며, 총 6개 블로그 글로 재구성했습니다.
- 주거상담기록 데이터 분석 (2): 형태소분석 (링크)
- 주거상담기록 데이터 분석 (3): 주제 수 결정 (링크)
- 주거상담기록 데이터 분석 (4): 주제 명명 (링크)
- 주거상담기록 데이터 분석 (5): 주제 분석 (링크)
- 주거상담기록 데이터 분석 (6): 주제 공변량 분석 (링크)
Note
주거상담 원데이터를 전처리하는 과정은 개인정보 보호 문제나 분석 목적에 따라 달라지므로, 별도로 다루지 않았습니다.