Cited 0 time in
Keybert와 Bertopic을 활용한 텍스트마이닝 연구동향 분석
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.author | 길완제 | - |
| dc.contributor.author | 장환영 | - |
| dc.contributor.author | 신인수 | - |
| dc.date.accessioned | 2024-08-08T13:00:57Z | - |
| dc.date.available | 2024-08-08T13:00:57Z | - |
| dc.date.issued | 2024-06 | - |
| dc.identifier.issn | 1738-382x | - |
| dc.identifier.uri | https://scholarworks.dongguk.edu/handle/sw.dongguk/22351 | - |
| dc.description.abstract | 대량의 텍스트 데이터를 분석하고 활용하는 텍스트 마이닝 기법은 공학 분야뿐만 아니라 사회과학과 교육 등 거의 모든 학문 분야에서 널리 사용되고 있다. 특히 최근 대규모 언어 모델의 급속한발전은 기존 텍스트 마이닝 기법의 한계를 보완하는 혁신적인 방법들을 도입하는 데 기여하고 있다. 본 연구의 목적은 국내 학술 및 학위 논문을 수집하여 최신 텍스트 마이닝 기법을 활용해 분석하는 것이다. 이를 위해 학술연구정보서비스(RISS) 데이터베이스에서 ‘텍스트 마이닝’을 키워드로 논문을 수집하였고, 수집된 논문들에 대해 키워드 분석과 토픽 모델링을 수행하였다. 키워드 분석에서는 TF- IDF를 활용한 빈도 기반 분석과 BERT 기반의 KeyBERT를 활용한 분석을 비교하였다. 또한, 토픽모델링 분석에서는 기존 통계 기반의 LDA 기법과 최신 언어 모델인 BERT 기반의 토픽 모델링 기법인 BERTopic을 비교하였다. 그 결과, BERT 기반의 토픽 분석이 응집도(Coherence Score) 점수에서 보다 우수한 성능을 나타냈다. 특히, Bertopic에서 한국어 임베딩 모델과 Keybert 기반의 토픽추출이 다국어 모델과 문장 기반의 추출보다 더 높은 응집도 점수를 기록하였다. 본 연구는 이러한 결과를 통해 한국어 텍스트 마이닝에서 최신 기법들의 적용과 활용 가능성을 제시하고자 한다. | - |
| dc.format.extent | 11 | - |
| dc.language | 한국어 | - |
| dc.language.iso | KOR | - |
| dc.publisher | 한국엔터프라이즈아키텍처학회 | - |
| dc.title | Keybert와 Bertopic을 활용한 텍스트마이닝 연구동향 분석 | - |
| dc.title.alternative | An Analysis of Academic Research Trends in Text Mining using Keybert and Bertopic | - |
| dc.type | Article | - |
| dc.publisher.location | 대한민국 | - |
| dc.identifier.doi | 10.22865/jita.2024.21.2.159 | - |
| dc.identifier.bibliographicCitation | 정보화연구, v.21, no.2, pp 159 - 169 | - |
| dc.citation.title | 정보화연구 | - |
| dc.citation.volume | 21 | - |
| dc.citation.number | 2 | - |
| dc.citation.startPage | 159 | - |
| dc.citation.endPage | 169 | - |
| dc.identifier.kciid | ART003092263 | - |
| dc.description.isOpenAccess | N | - |
| dc.description.journalRegisteredClass | kci | - |
| dc.subject.keywordAuthor | Text Mining | - |
| dc.subject.keywordAuthor | Topic Modeling | - |
| dc.subject.keywordAuthor | NLP | - |
| dc.subject.keywordAuthor | Bertopic | - |
| dc.subject.keywordAuthor | Keybert | - |
| dc.subject.keywordAuthor | 텍스트마이닝 | - |
| dc.subject.keywordAuthor | 토픽모델링 | - |
| dc.subject.keywordAuthor | 자연어처리 | - |
| dc.subject.keywordAuthor | Bertopic | - |
| dc.subject.keywordAuthor | Keybert | - |
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.
30, Pildong-ro 1-gil, Jung-gu, Seoul, 04620, Republic of Korea+82-2-2260-3114
Copyright(c) 2023 DONGGUK UNIVERSITY. ALL RIGHTS RESERVED.
Certain data included herein are derived from the © Web of Science of Clarivate Analytics. All rights reserved.
You may not copy or re-distribute this material in whole or in part without the prior written consent of Clarivate Analytics.
