Research Article

Journal of the Korean Geosynthetics Society. 30 June 2025. 1-13
https://doi.org/10.12814/jkgss.2025.24.2.001

ABSTRACT


MAIN

  • 1. 서 론

  • 2. 대상 댐과 계측기 현황

  • 3. 계측기별 이상치 탐지 기법의 결정

  •   3.1 개요

  •   3.2 이상치 탐지 기법을 결정하는 방법

  • 4. 결 론

1. 서 론

오늘날 댐, 특수교, 터널과 같은 사회기반시설은 국민 생활의 편의성을 높이고 국가의 경제적 기반을 강화하는 데 필수적인 요소이다. 이러한 시설은 국가의 수자원 관리, 도로 및 철도망의 원활한 운영, 안전한 교통 이동을 보장하는 핵심 인프라로서 기능한다. 따라서 이들 시설이 구조적으로 안정적이며 정상적인 기능을 수행하는지 지속적으로 점검하는 것은 매우 중요한 과제이다. 특히, 노후화된 인프라는 시간이 지남에 따라 물리적 변형이나 성능 저하가 발생할 가능성이 크므로 정기적인 안전 진단이 필수적이다.

사회기반시설의 유지·보수를 위한 정밀안전진단 과정에서는 다양한 계측 장비를 활용하여 구조물의 변형, 응력 변화, 진동, 온도 등의 데이터를 수집하고 이를 분석하는 작업이 필수적으로 수행된다. 그러나 이러한 계측자료는 방대한 양으로 축적되며, 그 분석 과정은 높은 복잡성을 동반한다. 특히, 계측자료에는 측정 오차나 외부 환경 요인으로 인해 이상치(outlier)가 포함될 가능성이 높은데, 이들 이상치를 정확하게 탐지하고 제거하는 것은 데이터 분석의 신뢰성을 확보하는 데 있어 중요한 전처리 과정이 된다. 하지만 현재 대부분의 계측자료 분석 과정에서는 이상치를 수작업으로 판별하고 제거하는 방식이 사용되고 있으며, 이는 많은 인력과 시간을 요구할 뿐만 아니라 오류 발생 가능성이 높아 작업의 효율성을 저하시킬 수 있다(Kim et al., 2019; Lee, 2021; Hodge and Austin, 2004).

이러한 문제를 해결하기 위해 계측자료 분석의 자동화를 도입하는 것이 필요하다. 자동화된 분석 시스템을 활용하면 방대한 데이터를 신속하게 처리할 수 있을 뿐만 아니라, 이상치를 보다 정교하게 탐지하여 제거할 수 있어 분석 결과의 정확성과 신뢰성을 높일 수 있다. 또한, 자동화 시스템은 정밀안전진단보고서 작성 과정에서도 데이터의 일관성을 유지하는 데 기여하며, 분석 속도를 개선함으로써 인력 및 운영 비용 절감 효과를 기대할 수 있다. 실제로 국내에서는 K-water(2024a)와 같은 실무기관에서 계측 신뢰성 평가 결과를 바탕으로 계측기 이상과 통신 오류, 자료 손상 사례를 다수 보고하고 있으며, 이에 따라 자동화 시스템의 도입 필요성이 꾸준히 제기되고 있다.

댐은 특히 장기간 수리·지반적 영향을 받는 구조물로, 침투, 간극수압, 변위, 균열 등 다양한 계측기에서 생성되는 시계열 데이터를 종합적으로 관리해야 한다. 이를 위해 계측기별 특성을 고려한 맞춤형 데이터 분석기법이 요구된다. Jeon et al.(2021)은 필댐 계측 데이터를 분석해 간극수압계에는 주성분분석(PCA), 침투수량계에는 분류나무(CART), 정상침하계에는 신호분해(EMD)가 각각 적합하다고 제안하였으며, 계측기별로 최적 분석 기법이 상이함을 실증하였다. 이는 계측기의 종류에 따라 서로 다른 이상치 탐지 전략이 필요함을 보여주며, 본 연구의 계측기별 자동화 기법 개발 취지와 일치한다.

국내에서는 Jeon et al.(2015)이 상관 기반 이상치 탐지기법을, Jeon(2018)이 복수 계측기 데이터를 종합 분석하는 통합 검증 기법을 제안하였다. 이와 더불어 Zhang and Jiang(2022)은 구조건전도 모니터링(SHM)을 위한 이상치 탐지 기법을 정리하면서, 밀도 기반(LOF), 분리 기반(iForest), 통계 기반(Z-score 등) 기법이 댐 계측 데이터에 적합하다고 평가하였다. Breunig et al.(2000)의 LOF와 Liu et al.(2008)의 iForest는 고차원 비정형 데이터를 다루는 데 효과적이며, 본 연구에서도 이 기법들을 기반으로 계측기별 적합성을 검토하고 있다.

최근에는 AI 및 딥러닝 기반의 이상치 탐지 연구도 활발히 진행되고 있다. Irazábal et al.(2025)은 실제 댐 계측 데이터를 대상으로 오토인코더 기반 이상치 탐지 모델을 제안하여 높은 정확도로 이상치를 자동 선별할 수 있음을 입증하였다. Xiang et al.(2023)은 트랜스포머 기반 모델을 통해 댐 구조물의 진동 데이터를 실시간으로 분석하고, 이상치의 유형까지 분류 가능한 모델을 구축하였다. Liu et al.(2023)은 콘크리트 댐의 변위 계측 데이터를 LSTM 기반 모델로 예측하여 비정상 거동을 탐지하는 기법을 제안하였다. 이러한 연구들은 본 논문이 제안하는 계측기별 이상치 탐지 자동화 전략의 기술적 타당성을 뒷받침한다.

이처럼 댐 계측 자동화 및 이상치 탐지 관련 연구는 국내외에서 활발히 진행되고 있으며, 특히 실측 데이터를 기반으로 계측기별 특성을 고려한 맞춤형 분석기법의 필요성이 강조되고 있다. 본 연구는 이러한 연구 흐름을 계승하여 실제 댐 운영 데이터를 바탕으로 각 계측기의 특성과 현장 조건을 반영한 최적의 이상치 탐지 기법을 제시하고자 한다.

본 연구는 댐 정밀안전진단 보고서의 계측자료 분석에 활용할 자동화 프로그램 개발을 위한 기초연구로, 댐별·계측기 종류별로 어떤 이상치 탐지 기법을 적용해야 할지를 결정하는 방법론을 제시하였다. 특히, 각 계측기의 설치 위치, 측정 간격, 과거 계측 이력 및 도메인 지식 등 현장의 조건을 종합적으로 고려하여 이상치 제거 전후의 상관관계 변화량을 정량적 평가 지표로 활용함으로써, 가장 적합한 탐지 기법을 도출하는 절차를 구성하였다. 이때 계측기의 조건에 대한 판단은 실제 댐 운영 데이터와 계측 전문가의 자문을 바탕으로 수행되었으며, 그 결과 각 계측기별로 최적화된 이상치 탐지 기법을 결정하여 자동화 프로그램의 기본값으로 적용하였다. 본 연구에서 제안한 방법론은 실측 데이터 기반의 정량적 기준과 현장 적용성을 동시에 반영하였다는 점에서 향후 정밀안전진단 자동화 시스템 구축의 핵심 기반으로 활용될 수 있을 것으로 기대된다.

2. 대상 댐과 계측기 현황

본 연구의 대상댐은 OO댐으로 총 저수용량 1790백만m3, 유효 저수용량 790백만m3, 높이 72m, 댐연장 495m의 콘크리트 중력식댐 및 석괴식 복합댐)이다. 1976년 12월부터 1980년 12월까지 사업기간을 기준으로, 2024년 현재 약 44년이 경과하고 있는 다목적댐이다. 계측기 설치 현황은 Table 1과 같이 총170개소에 184개의 계측 센서가 설치되어 있으며(K-water, 2024b) 이들은 크게 변위 계측기, 침하 및 균열 계측기, 수압 및 침투 계측기, 응력 및 토압 계측기, 환경 계측기로 구분된다. Fig. 1은 OO댐의 주요계측기의 설치위치를 나타낸다.

Table 1.

OO Dam instrumentation status (K-water, 2024b)

No. Instrument name OO dam (main) Measurement interval Measurement method Connection of head office
Full survey results Adjustment Final
Locations Sensors Locations Sensors Locations Sensors
1 External
displacement
Settlement at crest 10 10 10 10 0 0 2 hours Automatic O
Upstream slope 16 16 16 16 0 0 2 hours Automatic O
2 GPS
displacement gauge
Crest 10 10 10 10 1 hours Automatic O
Upstream 4 4 4 4 1 hours Automatic O
Downstream 12 12 12 12 1 hours Automatic O
Intake tower 1 1 1 1 1 hours Automatic O
Spillway 6 6 6 6 1 hours Automatic O
Power plant 1 1 1 1 1 hours Automatic O
GPS Ref. points 3 3 3 3 - - -
3 Layered settlement gauge 1 9 1 9 Quarterly Manual x
4 Structural inclinometer 6 12 6 12 Quarterly Manual x
5 Earth pressure gauge 2 2 2 2 1 hours Automatic O
6 Pore pressure gauge 4 4 4 4 1 hours Automatic O
7 Thermometer 25 25 25 25 1 hours Automatic x
8 Joint meter 6 6 6 6 1 hours Automatic O
9 Deformation meter 49 49 41 41 1 hours Automatic O
10 No-stress meter 10 10 9 9 1 hours Automatic O
11 Seepage flow meter 5 5 5 5 1 hours Automatic O
12 Seepage turbidity meter 1 1 1 1 1 hours Automatic O
13 Uplift pressure gauge 27 27 27 27 Quarterly Manual x
14 Seismometer 6 6 6 6 Real-time Automatic O
Total 205 219 26 26 170 184

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F1.jpg
Fig. 1.

Location of principal geotechnical instruments (Yun et al., 2022)

3. 계측기별 이상치 탐지 기법의 결정

3.1 개요

이상치(Outlier)란 데이터의 일반적인 패턴에서 크게 벗어나는 값을 의미하며, 이는 측정 오류, 환경적 요인, 물리적 변형 등 다양한 원인에 의해 발생할 수 있다. 특히, 댐 계측 데이터는 복잡한 수리·지반적 요소 및 센서의 측정 불확실성에 의해 비정상적인 값이 포함될 가능성이 높다. 이러한 이상치는 데이터 분석 과정에서 모델의 정확도를 저하시킬 뿐만 아니라, 구조물 안전성 평가의 신뢰성을 저해할 수 있기 때문에 적절한 탐지 및 제거가 필수적이다.

이상치 탐지 기법은 일반적으로 단변량(Univariate) 방법과 다변량(Multivariate) 방법으로 구분된다. 단변량 방법은 개별 변수의 분포를 분석하여 이상치를 판별하는 방식이며, 다변량 방법은 여러 변수 간의 관계를 고려하여 이상치를 탐지하는 기법이다. 본 연구에서는 댐 계측 데이터의 특성을 고려하여 Table 2와 같이 단변량과 다변량 기법을 비교·분석한 후, 최적의 탐지 기법을 결정하고자 한다.

Table 2.

Outlier detection techniques

Variable dimension Detection technique
Univariate Follows normal distribution z-score (Standardized score)
Does not follow normal distribution Interquartile range (IQR method)
Multivariate Correlation exists Regression and Cook’s distance (Bivariate), Mahalanobis distance (Multivariate)
No correlation LOF (Local Outlier Factor), iForest (Isolation forest)

단변량 이상치 탐지 기법으로는 표준화 점수(Z-score) 방법과 수정 사분위수(IQR) 방법을 병행하여 적용하였다. 표준화 점수 방법은 데이터가 정규분포를 따를 경우 평균과 표준편차를 이용하여 이상치를 탐지하는 가장 일반적인 기법이며, 계산이 간단하고 실시간 적용이 가능하다. 하지만 데이터가 정규성을 따르지 않을 경우 탐지 정확도가 저하될 수 있으며, 극단값을 감지하는 성능이 제한적이다. 이를 보완하기 위해 데이터의 정규성 가정을 필요로 하지 않는 수정 사분위수 방법을 함께 채택하였다. 이 방법은 사분위수를 활용하여 이상치를 탐지하므로 극단값의 영향을 덜 받으며, 다양한 분포의 데이터에서도 활용 가능하다.

다변량 이상치 탐지 기법으로는 Cook의 거리(Cook’s Distance), 마할라노비스 거리(Mahalanobis Distance), LOF (Local Outlier Factor)(Breunig et al., 2000), iForest (Isolation Forest)(Liu et al., 2008) 기법을 적용하였다. Cook의 거리는 이변량 회귀 분석 기반의 방법으로, 두 개의 변수 간 선형 관계를 이용하여 이상치를 탐지하는 방식이다. 회귀 모델에서 특정 데이터가 미치는 영향을 분석하여 이상치를 판별하며, 예측 가능성을 높이는 데 유용하다. 하지만, 변수 간 관계가 선형적이지 않은 경우 탐지 성능이 저하될 수 있다. 마할라노비스 거리는 다변량 정규분포를 가정하며, 변수 간의 공분산을 고려하여 이상치를 탐지하는 기법이다. 여러 변수 간의 상관관계를 반영하여 이상치를 판별할 수 있어, 단변량 방법보다 정밀한 분석이 가능하다. 그러나 다변량 정규성을 따르지 않을 경우 성능이 저하될 수 있다. LOF는 데이터 밀도를 기반으로 이상치를 탐지하는 기법으로, 특정 데이터가 주변 데이터와 비교했을 때 얼마나 다른지를 평가한다. 이 방법은 비선형적 관계가 존재하는 데이터에서도 높은 탐지 성능을 보이며, 이상치가 주변 데이터 밀도와 큰 차이를 보일 때 효과적으로 탐지할 수 있다. 하지만 이웃(neighbor) 개수 등 하이퍼파라미터 설정에 따라 탐지 성능이 달라질 수 있다. iForest는 랜덤 포레스트(Random Forest) 기반의 이상치 탐지 기법으로, 이상치를 빠르게 분리하는 데 최적화된 알고리즘이다. 데이터의 분포와 관계없이 적용 가능하며, 샘플 수가 많아도 탐지 성능이 안정적이다. 하지만 특정 유형의 이상치(예: 점진적 변화 이상치)에 대한 탐지 성능이 다소 제한적일 수 있다.

이상치 탐지 기법들은 각각 통계량, 거리, 또는 점수 등을 산정하여 이상치를 판단하며, 산정된 값이 설정된 절사값을 초과하는 경우 이상치로 식별된다. 하지만 최적의 이상치 탐지 기법을 결정하기 위해서는, 이상치 제거 후 데이터의 구조적 일관성이 유지되는지 평가할 필요가 있다. 따라서 본 연구에서는 단변량 및 다변량 방법으로 이상치를 제거한 후, 제거 전과 후의 상관분석을 수행하여 변수 간 상관성이 상대적으로 더 높아진 방법을 권장방법으로 선정할 예정이다.

이와 함께, 이상치 탐지 기법 선정 과정에서 도메인 지식과 추가적인 분석 지표 또한 고려해야 한다. 특정 계측기의 경우, 이상치 제거 후 상관성이 높아진 방법이더라도 현장의 물리적 특성과 데이터의 실제 의미를 반영하지 못할 가능성이 있으며, 계측기의 종류나 측정 환경에 따라 적합한 이상치 탐지 기법이 달라질 수 있기 때문이다. 따라서 본 연구에서는 각 계측기의 기존 데이터를 분석하여, 해당 계측기에 가장 적합한 이상치 탐지 기법을 최종 결정할 예정이다.

이렇게 선정된 이상치 탐지 기법은 향후 자동화된 계측 데이터 분석 프로그램의 기본값으로 설정될 예정이며, 사용자가 분석 목적과 계측기의 특성에 따라 적절한 탐지 기법을 선택할 수 있도록 개발할 계획이다. 이를 통해 계측 데이터의 신뢰성을 높이고, 이상치 제거에 따른 데이터 변형을 최소화하여 보다 정밀한 분석이 가능하도록 할 것이다.

3.2 이상치 탐지 기법을 결정하는 방법

본 연구에서는 대상 댐의 계측기별 이상치 탐지 기법을 결정하는 일련의 과정을 Fig. 2의 flow chart로 나타내었다. 이를 통해 각 계측기 유형별 가장 적절한 이상치 탐지 기법을 결정하고, 최종적으로 개발 중인 자동화 계측 데이터 분석 시스템에서 기본값으로 설정할 기법을 선정 한다​.

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F2.jpg
Fig. 2.

Flow chart to determine appropriate outlier detection technique

Flow chart의 효과적인 설명을 위해 OO댐의 간극수압계를 예시로 이상치 탐지 기법을 결정하는 일련의 과정을 아래와 같이 나타내었다. 최초 설치 수량은 37개 센서이며, 현재 4개의 센서만이 운용중에 있다.

ⓐ : 먼저, 대상 댐과 계측기별 최초로 제공받는 데이터의 양식이 상이하여 이를 프로로그램 input값으로 사용하기 위해서는 양식을 통일시키는 작업이 필요하다. 이 과정에서 문자 또는 공백으로 기록된 관측값은 제거된다. 이 과정을 걸친 간극수압계의 경시변화데이터는 A 데이터로 Fig. 3과 같다.

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F3.jpg
Fig. 3.

Converted rawdata (Data A)

ⓐ-1 : A 데이터에서 해당 댐과 계측기의 특징, 설치위치와 전기적, 기계적 및 환경적 요인으로 인해 목측(육안)으로 식별이 가능한 터무니없는 수치를 제거 하기 위해 절사값(cutoff value)을 설정한다. Fig. 4는 간극수압계의 상하 절사값을 각각 10, -9로 설정하여 제거후의 경시변화 데이터를 나타내며 이를 B 데이터로 지정한다.

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F4.jpg
Fig. 4.

Data A after applying cutoff values (Data B)

ⓑ : 기술통계 분석은 [기술통계]와 [상관분석]으로 구성된다. [기술통계]의 정규성 검정을 통해 단변량 이상치 탐지 기법이 결정되며, [상관분석]을 통해 다변량이상치 탐지 기법이 결정된다.

ⓒ : [기술통계]의 출력항목은 Table 3과 같다. 정규성 검정은 데이터가 정규 분포를 따르는지 확인하는 통계적 방법이며, P-value가 0.05보다 크면 정규성을 따르는 데이터로 판정된다. 데이터 수량에 따라 Shapiro-Wilk 방법과 D’Agostino’s K2 Test 방법을 사용 하였다(Razali and Wah, 2011). B 데이터의 [기술통계] 결과는 Table 4와 같다. 간극수압계의 기술통계의 정규성 검정 결과, P-value가 0.05보다 작아 정규분포를 따르지 않는 것으로 나타났다. 따라서 간극수압계의 단변량 이상치 탐지 기법은 수정 사분위수 방법을 적용하였다.

Table 3.

Descriptive statistics output items

Category Statistic Remarks
Central tendency Median, Arithmetic mean Identifying the center of the data
Dispersion Maximum, minimum, Standard deviation, variance Checking how the data is spread around the center
Distribution shape Skewness, Kurtosis Degree of symmetry and peakedness
Normality test Shapiro-wilk / D’agostino’s K2 test Determining methods for handling univariate outliers
Table 4.

Descriptive statistical analysis results for pore water pressure gauge

No. Min 1st Quartile Median Mean 3rd Quartile Max Variance Skewness Kurtosis Error Normality Test (p-value)
PP0005 -0.84 0.16 0.53 0.75 1.31 3.82 0.75 0.87 0.12 0.01 1.12E-34
PP0006 -1.95 1.10 1.42 1.50 1.87 6.01 0.58 0.40 2.12 0.01 2.01E-23
PP0011 -1.01 -0.19 0.06 0.18 0.47 2.97 0.54 0.97 1.00 0.01 1.27E-30
PP0019 -3.16 2.73 2.93 2.99 3.19 5.52 0.51 -1.55 18.17 0.01 8.11E-45
Average -1.74 0.95 1.24 1.35 1.71 4.58 0.59 0.17 5.35 0.01 5.03E-24

ⓒ-1 : [상관분석]을 통해 다변량 이상치 탐지 기법을 결정한다. Table 5는 상관계수의 의미를 나타낸다. 본 연구에서 상관계수가 0.5보다 크면 상관성이 있는것으로, 0.5보다 작으면 상관성이 없는 것으로 판단하였다. Table 6은 B 데이터인 간극수압계의 상관분석 결과이다. PP0005와 PP0011의 상관계수만이 0.8로 강한 상관관계를 나타내었다. 하지만 다른 계측기 간의 상관계수는 전반적으로 0.5를 넘지 못해 상관성이 없는 것으로 나타났다. 따라서 간극수압계의 다변량 이상치 탐지 기법은 LOF와 iForest방법을 적용하였다.

Table 5.

Meaning of correlation coefficient (Evans, 1996)

Correlation Coefficient (r) Interpretation Description
±1.0 ~ ±0.9 Very strong correlation A nearly perfect linear relationship between variables.
±0.9 ~ ±0.7 Strong correlation A strong linear relationship; data points are closely aligned.
±0.7 ~ ±0.5 Moderate correlation A noticeable linear trend, but with some variability.
±0.5 ~ ±0.3 Weak correlation A weak linear relationship; variables are somewhat related.
±0.3 ~ ±0.1 Very weak correlation Little to no linear relationship, but a slight trend may exist.
±0.1 ~ 0 No correlation Virtually no relationship between variables.
Table 6.

Correlation analysis results of pore water pressure gauges

PP0005 PP0006 PP0011 PP0019
PP0005 1.0 0.20 0.80 0.44
PP0006 1.0 0.22 0.21
PP0011 1.0 0.43
PP0019 1.0

ⓓ-1 : ⓒ에서 간극수압계의 단변량 이상치 탐지 기법으로 수정 사분위수 방법을 적용하였다. 수정 사분위수에 따른 단변량 분석결과는 Table 7Fig. 5와 같다. Fig. 6은 수정 사분위수 방법으로 이상치 제거 후의 경시변화를 나타낸다.

ⓔ-1 :ⓒ-1에서 간극수압계의 다변량 이상치 탐지 기법으로 LOF와 iForest방법 적용하였다. LOF에 따른 분석결과는 Table 8Fig. 7과 같다. 절사값은 LOF 값이 급격하게 증가하는 지점을 기준으로 1.5를 설정 하였다. Fig. 8은 LOF 방법으로 이상치 제거 후의 경시변화를 나타낸다. iForest에 따른 분석결과는 Table 9Fig. 9와 같다. 절사값은 일반적은 0.6~0.7의 가운데 값인 0.65를 설정 하였으며, Fig. 10은 iForest 방법으로 이상치 제거 후의 경시변화를 나타낸다.

ⓕ : 정규성 검정과 상관분석을 통해 OO댐 간극수압계의 단변량, 다변량 이상치 탐지 기법을 각각 수정 사분위수 방법, LOF와 iForest 방법으로 결정하여 이상치가 제거된 데이터 C(Fig 6, 8, 10)를 확보 하였다.

Table 7.

Analysis results of the interquartile range (IQR) for pore water pressure gauges

Lower bound Upper bound Total data Normal data Outliers
PP0005 -0.276 6.114 2,694 2,663 31
PP0006 0.509 3.815 2,694 2,651 43
PP0011 -0.562 2.546 2,694 2,593 101
PP0019 2.384 4.366 2,694 2,571 123

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F5.jpg
Fig. 5.

Outlier detection results using the interquartile range (IQR)

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F6.jpg
Fig. 6.

Data B after outlier removal using the interquartile range (IQR)

Table 8.

Analysis results of the LOF for pore water pressure gauges

Cutoff value Total data Normal data Outliers
1.500 2,694 2,592 102

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F7.jpg
Fig. 7.

Outlier detection results using the LOF

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F8.jpg
Fig. 8.

Data B after outlier removal using the LOF

Table 9.

Analysis results of the iForest for pore water pressure gauges

Cutoff value Total data Normal data Outliers
0.65 2,694 2,677 17

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F9.jpg
Fig. 9.

Outlier detection results using the IForest

https://cdn.apub.kr/journalsite/sites/kgss/2025-024-02/N0150240201/images/kgss_2025_242_001_F10.jpg
Fig. 10.

Data B after outlier removal using the iForest

ⓖ : 본 연구에서는 OO댐의 간극수압계에 적합한 이상치 탐지 방법을 결정하기 위해, 단변량 방법인 수정 사분위수 방법과 다변량 방법인 LOF와 iForest 방법으로 이상치를 제거한 C 데이터를 이용하여 상관분석을 다시 수행한다. 이상치 제거 전인 B 데이터와(Fig. 4) 이상치 제거 후인 C 데이터의 상관분석결과에서 상관성의 증가가 더 큰 기법이 간극수압계의 이상치 탐지 기법으로 결정되어, 개발 예정인 자동화 계측 데이터 분석 시스템에서 기본값으로 설정된다.​ Table 10, 11, 12는 이상치 제거 전과 후의 상관계수를 나타낸다.

Table 10.

Changes in correlation coefficients before and after outlier removal using the adjusted interquartile range (IQR)

Before outlier removal After outlier removal Before outlier removal After outlier removal Before outlier removal After outlier removal Before outlier removal After outlier removal
PP0005 PP0005 PP0006 PP0006 PP0011 PP0011 PP0019 PP0019
PP0005 1.0 1.0 0.20 0.19 0.80 0.80 0.44 0.49
PP0006 1.0 1.0 0.22 0.22 0.21 0.18
PP0011 1.0 1.0 0.43 0.52
PP0019 1.0 1.0
Table 11.

Changes in correlation coefficients before and after outlier removal using the LOF

Before outlier removal After outlier removal Before outlier removal After outlier removal Before outlier removal After outlier removal Before outlier removal After outlier removal
PP0005 PP0005 PP0006 PP0006 PP0011 PP0011 PP0019 PP0019
PP0005 1.0 1.0 0.20 0.22 0.80 0.81 0.44 0.48
PP0006 1.0 1.0 0.22 0.24 0.21 0.25
PP0011 1.0 1.0 0.43 0.48
PP0019 1.0 1.0
Table 12.

Changes in correlation coefficients before and after outlier removal using the iForest

Before outlier removal After outlier removal Before outlier removal After outlier removal Before outlier removal After outlier removal Before outlier removal After outlier removal
PP0005 PP0005 PP0006 PP0006 PP0011 PP0011 PP0019 PP0019
PP0005 1.0 1.0 0.20 0.21 0.80 0.80 0.44 0.47
PP0006 1.0 1.0 0.22 0.15 0.21 0.24
PP0011 1.0 1.0 0.43 0.47
PP0019 1.0 1.0

ⓗ : 이상치를 제거하기 전 데이터의 상관분석결과와 이상치 제거 후의 상관분석결과, 수정사분위 방법은 0.1, LOF방법은 0.18, iForest방법은 0.04로 LOF방법이 상관성의 증가가 가장 크게 나타났다. 따라서 OO댐의 간극수압계의 이상치 탐지 기법은 LOF 방법이 개발 예정인 자동화 프로그램의 기본값으로 설정된다.

Table 10, 11, 12는 이상치 제거 전후의 계측기 간 상관계수 변화를 정리한 것으로, 각 탐지 기법이 데이터의 구조적 일관성 회복에 미친 영향을 정량적으로 평가하기 위해 구성되었다. 이상치 제거 후 상관계수가 증가한 경우는 계측기 간 데이터 간의 상관성이 회복되었음을 의미하며, 이는 해당 기법이 실제로 데이터 왜곡 요인으로 작용한 이상치를 효과적으로 제거했음을 시사한다. 특히, 상관계수의 증가폭이 클수록 계측기 간 신뢰성이 높아졌다고 해석할 수 있다.

반면, 일부 계측기에서는 이상치 제거 이후 상관계수가 오히려 감소하거나 큰 변화가 없는 경우도 확인되었는데, 이는 해당 기법이 정상 데이터를 이상치로 오판하거나, 계측기 간 본래 상관성이 낮은 특성에 기인할 수 있다. 이러한 결과는 이상치 탐지 기법이 특정 계측기 유형이나 데이터 특성에 따라 상이한 성능을 보일 수 있음을 보여준다.

따라서 본 연구는 단일 기법의 우수성을 주장하기보다, 각 계측기에 대해 이상치 제거 전후의 상관계수 변화량을 기준으로 정량 비교를 수행하고, 변화량이 가장 큰 기법을 최적 기법으로 판단하였다. 이는 탐지 성능을 단순한 탐지 개수 또는 알고리즘 복잡도로 판단하지 않고, 실질적인 데이터 신뢰성 회복 효과를 기준으로 기법을 평가한 것으로, 실무 적용 시 타당성을 확보할 수 있는 기준으로 활용될 수 있을 것이다.

4. 결 론

정밀안전진단보고서는 댐과 같은 대형 사회기반시설의 구조적 안전성을 평가하는 중요한 문서이며, 이를 위해 다양한 계측 데이터를 분석하는 과정이 필수적이다. 그러나 현재의 계측 데이터 분석 방식은 방대한 데이터량과 높은 복잡성으로 인해 많은 시간과 인력이 소요되며, 특히 이상치(outlier) 탐지 및 제거 과정에서 오류가 발생할 가능성이 높아 분석의 신뢰성을 저하시킨다. 이러한 문제를 해결하기 위해 계측 데이터 분석의 자동화가 필요하며, 이를 통해 보고서 작성의 일관성과 효율성을 높이고 인력 및 비용을 절감할 수 있다.

본 연구는 정밀안전진단보고서의 자동화 시스템 개발 과정 중 초기 단계로, 원시(raw) 데이터에서 이상치를 탐지하고 제거하는 기법을 연구하였다. 이상치 탐지 과정은 크게 ① 데이터 전처리 → ② 단변량 및 다변량 이상치 탐지 → ③ 이상치 제거 후 전후의 상관분석 수행 → ④ 최적 탐지 기법 결정의 단계로 구성된다.

먼저, 원시 데이터를 변환하고 계측기 특성에 따라 절사값을 설정하여 명백한 비정상값을 제거한 후, 단변량 및 다변량 분석을 각각 수행하였다. 단변량 분석에서는 정규성 검정을 통해 Z-score 또는 수정 사분위수(IQR) 기법을 적용하였고, 다변량 분석에서는 계측기 간 상관분석 결과에 따라 Mahalanobis 거리, LOF, iForest 중 적절한 기법을 적용하였다. 이후 이상치를 제거한 데이터를 대상으로 상관계수를 재분석하여, 제거 전후의 상관계수 변화량이 가장 큰 기법을 해당 계측기의 최적 이상치 탐지 기법으로 선정하였다.

이러한 기법 선정 방식은 단순 탐지 개수나 알고리즘 특성만을 기준으로 하지 않고, 실측 데이터의 구조적 일관성 회복 정도를 정량적으로 평가하였다는 점에서 실무적 신뢰성과 객관성을 확보한 것으로 판단된다. 향후에는 본 연구에서 도출한 기법을 기반으로 국내 주요 댐의 계측 데이터를 분석하여, 댐별·계측기별 최적의 이상치 탐지 기법을 자동화 프로그램의 기본값으로 내장할 계획이다. 이를 통해 정밀안전진단보고서 자동화 시스템 구축에 기초자료로 활용될 수 있을 뿐 아니라, 계측자료의 품질 향상 및 분석 신뢰도 제고에 기여할 수 있을 것으로 기대된다.

Acknowledgements

This research was supported by the Korea National Land Safety Management Agency in 2024 through the National Land Safety Research Program.

References

1

Breunig, M. M., Kriegel, H. P., Ng, R. T. and Sander, J. (2000), "LOF: Identifying density-based local outliers", Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, pp.93-104.

10.1145/342009.335388
2

Evans, J. D. (1996), Straightforward Statistics for the Behavioral Sciences, Brooks, Cole Publishing.

3

Hodge, V. J. and Austin, J. (2004), "A survey of outlier detection methodologies", Artificial Intelligence Review, Vol.22, No.2, pp.85-126.

10.1023/B:AIRE.0000045502.10941.a9
4

Irazábal, J., Salazar, F., Silva-Cancino, N. and Vicente, D. J. (2025), "Detection of outliers in dam monitoring time series with autoencoders", Structural Health Monitoring, (in press).

10.1007/s13349-025-00910-4
5

Jeon, H. C., Yoon, S. G., Kim, J. S., Lim, E. S. and Kang, G. C. (2021), "A case study on optimal analysis techniques for key instrumentation data in earthfill dam safety management", Journal of the Korean Geo-Environmental Society, Vol.22, No.5, pp.43-53. (in Korean)

6

Jeon, J. S. (2018), "Integrated outlier evaluation and verification for multiple monitoring data", Journal of Korean Geo- Environmental Society, Vol.19, No.1, pp.5-14. (in Korean)

7

Jeon, J. S., Koo, J. G. and Park, C. M. (2015), "Outlier detection of time-series measurement data using rule-based and correlation analysis methods", Journal of Korean Geo- Environmental Society, Vol.16, No.5, pp.43-53. (in Korean)

10.14481/jkges.2015.16.5.43
8

Kim, D. H., Yoo, S. E., Lee, B. J., Kim, K. T. and Yoon, H. Y. (2019), "Efficient data preprocessing for machine learning", Proceedings of the 59th Winter Conference of the Korean Society of Computer Information, pp.123-130. (in Korean)

9

K-water (2024a). Dam instrumentation reliability assessment service report. Korea Water Resources Corporation. (in Korean)

10

K-water (2024b), Dam Instrumentation Reliability Assessment Service Report. Korea Water Resources Corporation. (in Korean)

11

​Lee, Y. H. (2021), "A study on effective machine learning methods applying data discretization and hierarchical clustering algorithms", Proceedings of the Korean Institute of Information Scientists and Engineers Conference, pp.45-52.

12

Liu, C., Pan, J. and Wang, J. (2023), "An LSTM-based anomaly detection model for the deformation of concrete dams", Automation in Construction, Vol.153, No.104971.

13

Liu, F. T., Ting, K. M. and Zhou, Z. H. (2008), "Isolation forest", Proceedings of the 8th IEEE International Conference on Data Mining, pp.413-422.

10.1109/ICDM.2008.17
14

Razali, N. M. and Wah, Y. B. (2011), "Power Comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson- Darling Tests", Journal of Statistical Modeling and Analytics, Vol.2, No.1, pp.21-33.

15

Xiang, H., Zhu, J., Zhang, Y. and Zhang, Y., et al. (2023), "Application of Transformer-based anomaly detection in dam structural strong motion monitoring data", Sensors, Vol.23, No.8, No.3501.

16

Yun, S. K., Kim, J. S., Im, E. S. and Kang, G. C. (2022), "Behavior of Porewater Pressures in an Earth Dam by Principal Component Analysis", Water, Vol.14, No.4. Article No.672.

10.3390/w14040672
17

Zhang, Y. and Jiang, L. (2022), "Machine learning methods for outlier detection in structural health monitoring: A review", Structural Health Monitoring, Vol.21, No.5, pp.1594-1612.

페이지 상단으로 이동하기