이상치의 정의(Definition of Anomalies)

2021. 12. 30. 15:40Research/Anomaly Detection

728x90

이상 탐지(Anomaly Detection)는 정상인 데이터(Normal Sample Data)들 사이에서 비정상인 데이터(Abnormal Sample Data)를 탐지하는 연구 분야를 말합니다. 이상 탐지는 교통 분야(Illegal Traffic Flow Detection), 의료 분야(Detecting Retinal Damage), 통신 분야(Cyber-Network Intrusion Detection), IoT 분야(Internet of Things Big - Data Anomaly Detection)에서 활발하게 쓰이고 있습니다. 이상치(Abnormal Sample)는 그 시스템의 이상 현상에 대한 정보를 제공해주기 때문에 이상치를 탐지하고 이를 분석하는 것은 중요한 문제라고 할 수 있습니다[1].


이번 글에서는 이상 탐지 분야에서 말하는 이상치(Anomalies)가 무엇인지에 대해 정의해보도록 하겠습니다.

아쉽게도 이상치(Anomalies, Outliers)에 대한 명확한 정의는 존재하지 않습니다. 그렇기 때문에 많은 통계학, 머신러닝 연구자들은 이상치에 대해 자신만의 정의를 내리고 있고, 그 정의들을 요약하면 다음과 같은 문장으로 정리할 수 있습니다[2].

$\rm{Definition}~:~An~anomaly~is~an~observation~or~a~sequence~of~observations~which~deviates~remarkably\\from~the~general~distribution~of~data. The~set~of~the~anomalies~form~a~very~small~part~of~the~dataset.$

다시 말해, 이상치는 정상 데이터들과 매우 많이 떨어져 있고, 그 비율이 정상 데이터의 비율보다 현저히 적은 데이터를 말합니다. 정상 데이터와 비 정상 데이터의 아주 간단한 예시는 아래의 그림과 같습니다.

Fig1은 노이즈가 없는 상태에서 정상 데이터와 비 정상 데이터를 2차원 평면에 시각적으로 나타낸 그림. Fig2는 노이즈가 있는 상태에서 정상데이터와 비 정상 데이터를 2차면 평면에 시각적으로 나타낸 그림.

왼쪽 그림은 정상 데이터들(파란 점)과 비 정상 데이터(빨간 점)가 명확하게 구분되는 경우 입니다. 이런 경우에 비 정상 데이터들을 구별하는 것은 쉬울 것으로 예상할 수 있습니다. 오른쪽 그림은 정상 데이터들과 비 정상 데이터가 노이즈로 인해 명확하게 구분되지 않는 경우 입니다. 이런 경우에 비 정상 데이터들을 구별하는 것은 쉽지 않을 것으로 예상할 수 있습니다. 

[참고 문헌]

[1] CHALAPATHY, Raghavendra; CHAWLA, Sanjay. Deep learning for anomaly detection: A survey. arXiv preprint arXiv:1901.03407, 2019.

[2] BRAEI, Mohammad; WAGNER, Sebastian. Anomaly detection in univariate time-series: A survey on the state-of-the-art. arXiv preprint arXiv:2004.00433, 2020.