Cited 0 time in
한국어 챗봇 데이터에 최적화 된 임베딩 성능 비교 프로그램
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.author | 이영섭 | - |
| dc.contributor.author | 강도영 | - |
| dc.date.accessioned | 2025-09-09T09:01:00Z | - |
| dc.date.available | 2025-09-09T09:01:00Z | - |
| dc.identifier.uri | https://scholarworks.dongguk.edu/handle/sw.dongguk/60754 | - |
| dc.description.abstract | - 자연어 처리에서 가장 중요한 것은 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾸는 임베딩 작업으로, 품질 좋은 임베딩을 쓸수록 모형의 정확도 및 학습 속도가 올라간다. 그러나, 교착어인 한국어 특성상 띄어쓰기를 지키지 않아도, 단어의 위치를 바꾸어도 의미전달이 가능하기 때문에 한국어 자연어 처리가 어려워 대중화 되어 있지 않다. 그렇기 때문에 한국어 데이터에 최적화 된 임베딩을 찾고자 하였다. - 일반적으로 공개되어 있는 한국어 데이터는 거의 없지만 한글로 챗봇을 만들어 볼 수 있게 송영숙 님이 번역 및 제공해주신 <Chatbot_data_for_Korean v1.0> 데이터 셋을 이용하였고, 이는 질문과 대답의 쌍으로 이루어진 챗봇 데이터이다. 제작한 프로그램 순서는 챗봇 데이터 전처리 -> 토큰화 -> 임베딩 -> 성능 비교 순이다. | - |
| dc.title | 한국어 챗봇 데이터에 최적화 된 임베딩 성능 비교 프로그램 | - |
| dc.title.alternative | Embedding performance comparison program optimized for Korean chatbot data | - |
| dc.type | Patent | - |
| dc.publisher.location | 대한민국 | - |
| dc.contributor.assignee | 동국대학교산학협력단 | - |
| dc.date.application | 2021-07-23 | - |
| dc.date.registration | 2021-07-23 | - |
| dc.type.iprs | 소프트웨어 | - |
| dc.identifier.patentRegistrationNumber | C-2021-029917 | - |
| dc.identifier.patentApplicationNumber | 없음 | - |
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.
30, Pildong-ro 1-gil, Jung-gu, Seoul, 04620, Republic of Korea+82-2-2260-3114
Copyright(c) 2023 DONGGUK UNIVERSITY. ALL RIGHTS RESERVED.
Certain data included herein are derived from the © Web of Science of Clarivate Analytics. All rights reserved.
You may not copy or re-distribute this material in whole or in part without the prior written consent of Clarivate Analytics.
