Keybert와 Bertopic을 활용한 텍스트마이닝 연구동향 분석An Analysis of Academic Research Trends in Text Mining using Keybert and Bertopic
- Other Titles
- An Analysis of Academic Research Trends in Text Mining using Keybert and Bertopic
- Authors
- 길완제; 장환영; 신인수
- Issue Date
- Jun-2024
- Publisher
- 한국엔터프라이즈아키텍처학회
- Keywords
- Text Mining; Topic Modeling; NLP; Bertopic; Keybert; 텍스트마이닝; 토픽모델링; 자연어처리; Bertopic; Keybert
- Citation
- 정보화연구, v.21, no.2, pp 159 - 169
- Pages
- 11
- Indexed
- KCI
- Journal Title
- 정보화연구
- Volume
- 21
- Number
- 2
- Start Page
- 159
- End Page
- 169
- URI
- https://scholarworks.dongguk.edu/handle/sw.dongguk/22351
- DOI
- 10.22865/jita.2024.21.2.159
- ISSN
- 1738-382x
- Abstract
- 대량의 텍스트 데이터를 분석하고 활용하는 텍스트 마이닝 기법은 공학 분야뿐만 아니라 사회과학과 교육 등 거의 모든 학문 분야에서 널리 사용되고 있다. 특히 최근 대규모 언어 모델의 급속한발전은 기존 텍스트 마이닝 기법의 한계를 보완하는 혁신적인 방법들을 도입하는 데 기여하고 있다. 본 연구의 목적은 국내 학술 및 학위 논문을 수집하여 최신 텍스트 마이닝 기법을 활용해 분석하는 것이다. 이를 위해 학술연구정보서비스(RISS) 데이터베이스에서 ‘텍스트 마이닝’을 키워드로 논문을 수집하였고, 수집된 논문들에 대해 키워드 분석과 토픽 모델링을 수행하였다. 키워드 분석에서는 TF- IDF를 활용한 빈도 기반 분석과 BERT 기반의 KeyBERT를 활용한 분석을 비교하였다. 또한, 토픽모델링 분석에서는 기존 통계 기반의 LDA 기법과 최신 언어 모델인 BERT 기반의 토픽 모델링 기법인 BERTopic을 비교하였다. 그 결과, BERT 기반의 토픽 분석이 응집도(Coherence Score) 점수에서 보다 우수한 성능을 나타냈다. 특히, Bertopic에서 한국어 임베딩 모델과 Keybert 기반의 토픽추출이 다국어 모델과 문장 기반의 추출보다 더 높은 응집도 점수를 기록하였다. 본 연구는 이러한 결과를 통해 한국어 텍스트 마이닝에서 최신 기법들의 적용과 활용 가능성을 제시하고자 한다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - College of Education > Department of Education > 1. Journal Articles
- Graduate School of Education > ETC > 1. Journal Articles

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.