Keybert와 Bertopic을 활용한 텍스트마이닝 연구동향 분석

길완제; 장환영; 신인수

doi:10.22865/jita.2024.21.2.159

상세 보기

Keybert와 Bertopic을 활용한 텍스트마이닝 연구동향 분석

An Analysis of Academic Research Trends in Text Mining using Keybert and Bertopic

초록

대량의 텍스트 데이터를 분석하고 활용하는 텍스트 마이닝 기법은 공학 분야뿐만 아니라 사회과학과 교육 등 거의 모든 학문 분야에서 널리 사용되고 있다. 특히 최근 대규모 언어 모델의 급속한발전은 기존 텍스트 마이닝 기법의 한계를 보완하는 혁신적인 방법들을 도입하는 데 기여하고 있다. 본 연구의 목적은 국내 학술 및 학위 논문을 수집하여 최신 텍스트 마이닝 기법을 활용해 분석하는 것이다. 이를 위해 학술연구정보서비스(RISS) 데이터베이스에서 ‘텍스트 마이닝’을 키워드로 논문을 수집하였고, 수집된 논문들에 대해 키워드 분석과 토픽 모델링을 수행하였다. 키워드 분석에서는 TF- IDF를 활용한 빈도 기반 분석과 BERT 기반의 KeyBERT를 활용한 분석을 비교하였다. 또한, 토픽모델링 분석에서는 기존 통계 기반의 LDA 기법과 최신 언어 모델인 BERT 기반의 토픽 모델링 기법인 BERTopic을 비교하였다. 그 결과, BERT 기반의 토픽 분석이 응집도(Coherence Score) 점수에서 보다 우수한 성능을 나타냈다. 특히, Bertopic에서 한국어 임베딩 모델과 Keybert 기반의 토픽추출이 다국어 모델과 문장 기반의 추출보다 더 높은 응집도 점수를 기록하였다. 본 연구는 이러한 결과를 통해 한국어 텍스트 마이닝에서 최신 기법들의 적용과 활용 가능성을 제시하고자 한다.

키워드

Text Mining; Topic Modeling; NLP; Bertopic; Keybert; 텍스트마이닝; 토픽모델링; 자연어처리; Bertopic; Keybert

제목: Keybert와 Bertopic을 활용한 텍스트마이닝 연구동향 분석

제목 (타언어): An Analysis of Academic Research Trends in Text Mining using Keybert and Bertopic

저자: 길완제; 장환영; 신인수

DOI: 10.22865/jita.2024.21.2.159

발행일: 2024-06

저널명: 정보기술아키텍처 연구

권: 21

호: 2

페이지: 159 ~ 169