대용량 데이터 분석을 위한 맵리듀스 기반의 이상치 탐지open accessOutlier Detection Based on MapReduce for Analyzing Big Data
- Other Titles
- Outlier Detection Based on MapReduce for Analyzing Big Data
- Authors
- 홍예진; 나은희; 정용환; 김양우
- Issue Date
- Feb-2017
- Publisher
- 한국인터넷정보학회
- Keywords
- Big Data; Outlier; MapReduce; Distributed Processing; Spark; 빅데이터; 이상치; 맵리듀스; 분산처리; 스파크
- Citation
- 인터넷정보학회논문지, v.18, no.1, pp 27 - 35
- Pages
- 9
- Indexed
- KCI
- Journal Title
- 인터넷정보학회논문지
- Volume
- 18
- Number
- 1
- Start Page
- 27
- End Page
- 35
- URI
- https://scholarworks.dongguk.edu/handle/sw.dongguk/19603
- DOI
- 10.7472/jksii.2017.18.1.27
- ISSN
- 1598-0170
- Abstract
- 가까운 미래에는 빅데이터의 많은 부분을 IoT 데이터가 차지할 것이라는 전망이 나오고 있다. 그에 따라, IoT 데이터의 많은 부분을차치하는 센서 데이터에 관한 관심과 연구 또한 활발하게 진행되고 있다. 여러 분야에서 활용되고 있는 센서 데이터는 분석할 때실제와는 다른 값인 이상치를 포함하게 되면 정확한 분석이 어려우며, 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위해 수집된 원자료를 분석하기 전에 이상치 탐지 및 제거를 하였다. 또한, 점점 늘어나고있는 대용량의 데이터를 빠르게 처리하기 위해 메모리 접근방식인 스파크를 사용한 분산처리환경에서 처리하였다. 맵리듀스 기반의이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며, 각 단계를 매퍼와 리듀스로 구현하였다. 제안한 기법의 평가를 위해서 3가지 환경에서 비교하였으며, 그 결과 이상치 탐지 및 제거를 하고자 하는 데이터의 용량이 커질수록 스파크를 이용한 분산처리환경에서의 처리가 가장 빠르다는 결과를 얻었다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - College of Engineering > Department of Information and Communication Engineering > 1. Journal Articles

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.