Research/Anomaly Detection

이상치의 정의(Definition of Anomalies)

Mingi Kim 2021. 12. 30. 15:40

이상 탐지(Anomaly Detection)는 정상인 데이터(Normal Sample Data)들 사이에서 비정상인 데이터(Abnormal Sample Data)를 탐지하는 연구 분야를 말합니다. 이상 탐지는 교통 분야(Illegal Traffic Flow Detection), 의료 분야(Detecting Retinal Damage), 통신 분야(Cyber-Network Intrusion Detection), IoT 분야(Internet of Things Big - Data Anomaly Detection)에서 활발하게 쓰이고 있습니다. 이상치(Abnormal Sample)는 그 시스템의 이상 현상에 대한 정보를 제공해주기 때문에 이상치를 탐지하고 이를 분석하는 것은 중요한 문제라고 할 수 있습니다[1].


이번 글에서는 이상 탐지 분야에서 말하는 이상치(Anomalies)가 무엇인지에 대해 정의해보도록 하겠습니다.

아쉽게도 이상치(Anomalies, Outliers)에 대한 명확한 정의는 존재하지 않습니다. 그렇기 때문에 많은 통계학, 머신러닝 연구자들은 이상치에 대해 자신만의 정의를 내리고 있고, 그 정의들을 요약하면 다음과 같은 문장으로 정리할 수 있습니다[2].

$\rm{Definition}~:~An~anomaly~is~an~observation~or~a~sequence~of~observations~which~deviates~remarkably\\from~the~general~distribution~of~data. The~set~of~the~anomalies~form~a~very~small~part~of~the~dataset.$

다시 말해, 이상치는 정상 데이터들과 매우 많이 떨어져 있고, 그 비율이 정상 데이터의 비율보다 현저히 적은 데이터를 말합니다. 정상 데이터와 비 정상 데이터의 아주 간단한 예시는 아래의 그림과 같습니다.

Fig1은 노이즈가 없는 상태에서 정상 데이터와 비 정상 데이터를 2차원 평면에 시각적으로 나타낸 그림. Fig2는 노이즈가 있는 상태에서 정상데이터와 비 정상 데이터를 2차면 평면에 시각적으로 나타낸 그림.

왼쪽 그림은 정상 데이터들(파란 점)과 비 정상 데이터(빨간 점)가 명확하게 구분되는 경우 입니다. 이런 경우에 비 정상 데이터들을 구별하는 것은 쉬울 것으로 예상할 수 있습니다. 오른쪽 그림은 정상 데이터들과 비 정상 데이터가 노이즈로 인해 명확하게 구분되지 않는 경우 입니다. 이런 경우에 비 정상 데이터들을 구별하는 것은 쉽지 않을 것으로 예상할 수 있습니다. 

[참고 문헌]

[1] CHALAPATHY, Raghavendra; CHAWLA, Sanjay. Deep learning for anomaly detection: A survey. arXiv preprint arXiv:1901.03407, 2019.

[2] BRAEI, Mohammad; WAGNER, Sebastian. Anomaly detection in univariate time-series: A survey on the state-of-the-art. arXiv preprint arXiv:2004.00433, 2020.