이상치의 정의DefinitionofAnomaliesDefinitionofAnomalies

2021. 12. 30. 15:40Research/Anomaly Detection

이상 탐지AnomalyDetectionAnomalyDetection는 정상인 데이터NormalSampleDataNormalSampleData들 사이에서 비정상인 데이터AbnormalSampleDataAbnormalSampleData를 탐지하는 연구 분야를 말합니다. 이상 탐지는 교통 분야IllegalTrafficFlowDetectionIllegalTrafficFlowDetection, 의료 분야DetectingRetinalDamageDetectingRetinalDamage, 통신 분야CyberNetworkIntrusionDetectionCyberNetworkIntrusionDetection, IoT 분야InternetofThingsBigDataAnomalyDetectionInternetofThingsBigDataAnomalyDetection에서 활발하게 쓰이고 있습니다. 이상치AbnormalSampleAbnormalSample는 그 시스템의 이상 현상에 대한 정보를 제공해주기 때문에 이상치를 탐지하고 이를 분석하는 것은 중요한 문제라고 할 수 있습니다[1].


이번 글에서는 이상 탐지 분야에서 말하는 이상치AnomaliesAnomalies가 무엇인지에 대해 정의해보도록 하겠습니다.

아쉽게도 이상치Anomalies,OutliersAnomalies,Outliers에 대한 명확한 정의는 존재하지 않습니다. 그렇기 때문에 많은 통계학, 머신러닝 연구자들은 이상치에 대해 자신만의 정의를 내리고 있고, 그 정의들을 요약하면 다음과 같은 문장으로 정리할 수 있습니다[2].

Definition : An anomaly is an observation or a sequence of observations which deviates remarkablyfrom the general distribution of data.The set of the anomalies form a very small part of the dataset.

다시 말해, 이상치는 정상 데이터들과 매우 많이 떨어져 있고, 그 비율이 정상 데이터의 비율보다 현저히 적은 데이터를 말합니다. 정상 데이터와 비 정상 데이터의 아주 간단한 예시는 아래의 그림과 같습니다.

Fig1은 노이즈가 없는 상태에서 정상 데이터와 비 정상 데이터를 2차원 평면에 시각적으로 나타낸 그림. Fig2는 노이즈가 있는 상태에서 정상데이터와 비 정상 데이터를 2차면 평면에 시각적으로 나타낸 그림.

왼쪽 그림은 정상 데이터들과 비 정상 데이터가 명확하게 구분되는 경우 입니다. 이런 경우에 비 정상 데이터들을 구별하는 것은 쉬울 것으로 예상할 수 있습니다. 오른쪽 그림은 정상 데이터들과 비 정상 데이터가 노이즈로 인해 명확하게 구분되지 않는 경우 입니다. 이런 경우에 비 정상 데이터들을 구별하는 것은 쉽지 않을 것으로 예상할 수 있습니다. 

[참고 문헌]

[1] CHALAPATHY, Raghavendra; CHAWLA, Sanjay. Deep learning for anomaly detection: A survey. arXiv preprint arXiv:1901.03407, 2019.

[2] BRAEI, Mohammad; WAGNER, Sebastian. Anomaly detection in univariate time-series: A survey on the state-of-the-art. arXiv preprint arXiv:2004.00433, 2020.