검색
색인
텍스트 마이닝, text mining
동의어 : text data mining, text analytics
텍스트 데이터에서 가치와 의미가 있는 정보를 찾아내는 기법.많은 정보들이 온라인 뉴스 기사, 기술문서, 도서, 전자 우편(이메일) 메시지, 마이크로 블로그(micro-blog), 소셜 네트워킹 서비스(SNS) 및 웹페이지와 같은 텍스트 형식으로 저장된다. 이렇게 공개된 다양하고 풍부한 텍스트 정보에서 특정 주제와 관련한 부분을 뽑아 의미를 분석하고 사회 현상이나 여론의 경향 등 고품질의 정보를 도출하기 위한 방법으로 텍스트 마이닝 기법을 활용한다.

텍스트 마이닝(text mining)의 기반 기술로는 대용량 텍스트 데이터를 저장하고 처리하는 빅데이터 기술과 텍스트 데이터 구조를 분석하고 포함된 정보를 통계 처리가 가능한 형태로 변환하는 자연어 처리(NLP: Natural Language Processing) 기술이 있다. 이를 바탕으로 데이터 안에서 단어의 출현 빈도를 파악하는 단어 빈도 분석(frequency analysis), 유사한 단어 또는 비슷한 성격의 단어들을 묶어주는 군집 분석(cluster analysis), 단어에 나타난 긍정 혹은 부정 등의 감정적 요소를 추출하여 그 정도를 판별하는 감성 분석(sentiment analysis) 그리고 서로 다른 단어가 동시에 나타날 확률에 기초하여 단어 간 연관성을 추출하는 연관 분석(association analysis) 등의 통계적 방법들이 사용된다.

비통계적 방법으로 기계 학습(ML: Machine Learing)을 이용하여 입력된 텍스트 내용을 짧게 요약하거나 주제 정보나 키워드들을 추출하여 그 결과를 검색 엔진에 적용할 수 있다. 그밖에 스팸 메일 필터링, 사기 범죄 감지, 고객 관계 관리(CRM: Customer Relationship Management) 등의 분야에 활용한다.

데이터 마이닝이 구조화되고 사실적인 방대한 데이터베이스에서 관심 있는 패턴을 찾아내는 기술 분야라면 텍스트 마이닝은 텍스트를 분석하고 구조화하여 의미를 찾아내는 기술 분야다.
구조화되지 않은 방대한 문헌 집단에서 주제와 토픽을 찾아내기 위하여 유사한 의미가 있는 단어들을 군집하는 방식을 사용하여 주제를 추론하는 토픽 모델링 방법으로 LDA(Latent Dirichlet Allocation) 알고리즘을 사용하기도 한다.