SI

“더 복잡해진 기업 IT운영관리, AI로 혁신”…서비스나우, 'AIoPS' 솔루션 공개

이상일
[디지털데일리 이상일기자] IT서비스관리(ITSM)를 상징하는 벽에 장식된 큰 화면의 다양한 디스플레이, 즉 모니터링 화면의 갯수가 줄어들 수 있을까?

기업의 시스템이 다양해지면서 IT부서에서 봐야하는 모니터링 화면의 숫자는 나날이 증가하고 있다. 서비스 품질 저하나 장애발생 현황을 알려주는 모니터링 화면은 기업에 도입되는 시스템 증가와 비례하고 있는 상황이다.

하지만 에이아이옵스(AIoPS)를 도입하면 수백 개의 화면을 하나로 통합할 수 있다.

서비스나우 이호진 이사는 25일 디지털데일리의 온라인 세미나 플랫폼인 디디튜브를 통해 진행된 버추얼 세미나에서 ‘AIoPS를 고려해야 하는 다섯가지 이유’를 발표해 참석자들의 큰 주목을 끌었다.

이 이사는 “머신기반의 셀프러닝, 리소스 할당을 자동으로 하고 중단 예측 및 방지 기능을 가능케 하는 ‘자가치유단계’로 IT부서가 접어들기 위해 AIoPS가 필요하다”고 강조했다.

AIoPS는 가트너에 따르면 빅데이터와 머신러닝을 결합해 모든 IT운영기능을 지원하는 솔루션으로 실시간 저장과 기계학습, 인사이트 분석을 기반으로 다음 단계로의 진행이 가능하도록 IT업무를 보조한다. 또, 중복제거, 패턴 파악, 의미 있는 데이터를 찾아 그룹화하고 추론해 협업을 지원한다.

AIOps의 궁극적인 목표는 사전 대응이 가능한 운영 방식으로의 전환이고, 문제가 발생했을 경우 최대한 문제를 빠르게 식별하고 자동화를 활용해 빠르게 문제를 해결하는데 있다.

이호진 이사는 “IT운영을 방해하는 요인이 사일로 시스템이 많아지면서 너무 많은 노이즈를 생성한다. 또 업무부서에서는 포인트 솔루션을 도입해 문제를 해결하려 하지만 이 역시 많은 노이즈를 발생시킨다. 하지만 이미 만들어져 있는 워크플로우에서는 자동화가 어렵고 다양한 구축형 솔루션은 애자일한 운영을 어렵게 한다”며 현 IT시스템 운영의 어려움을 지적했다.

물론 모든 IT조직이 시스템에 대한 통찰력과 성숙도 확보를 위해 노력하고 있지만 현재 포인트 모니터링 도구를 활용하는 정도다. 하지만 AIoPS를 도입하면 지능형 대응을 통해 노이즈와 오탐(False Alarm)을 줄여 자동화된 근본 분석 가능 단계를 지나 ‘자가치유단계’로 진화할 수 있다는 설명이다.

자가치유단계는 이미 글로벌 기업 중에 실행에 접어든 곳도 있다. 영국의 항공통제 기업인 NATS의 경우 170여개의 화면을 통해 서비스 상태를 모니터링 했는데 서비스나우를 도입한 후 단일 화면으로 서비스를 관리하고 있다. 사전 예측 및 자동화를 통해 무사고 문화가 정착돼 관제사가 사고를 인지하기 전에 조치를 취하는 것이 가능해졌다.

한편 이러한 AIoPS 도입에 있어선 구성관리데이터베이스(CMDB)의 존재 유무가 중요하다는 설명이다.

이호진 이사는 “CMDB가 없으면 AIoPS를 만들 수도 운용할 수도 없다. 건강하고 똑똑한 CMDB 보유가 중요하다”고 강조했다. CMDB는 IT인프라 전체 가시성을 제공하며 현대 기업에서 IT 에코 시스템을 관리하는데 필수적이다.

이 이사는 “CMDB는 혼란에서 질서를 가져오는 기능을 수행한다. 서비스문제를 감지하고 분석하는데 필요한 ‘가시성 지도’ 마련이 CMDB를 통해 가능하다. 예를 들어 윈도서버 실행 DB에서 MySQL 메모리 제한으로 지연이 생기면 응답시간이 늘어나는데 AIoPS에선 리눅스 서버의 오라클 DB에 대해서도 동일한 문제를 추론해 경고 발령이나 조치를 취하게 된다”고 설명했다.

한편 AIoPS는 IT생산성 확보를 위해 몇 시간 안에 크리티컬한 인시던트가 무엇인지 파악해 몇 일 내에 기존 이벤트와 로그 및 티켓 수집에 나선다. 이를 학습 시스템으로 데이터셋을 개선해 자동 상관을 수행한다. 결국 몇 시간 내에 예측을 시작해 1개월 만에 가치를 창출하는 것이 가능해진다. 또, 이벤트 노이즈를 90% 감소시키는 것이 AIoPS의 중요한 역할이라는 설명이다.

이호진 이사는 “AIoPS는 2025년까지 직원 생산성의 40% 이상을 증대시킬 것”이라며 “가입자 수 기반 글로벌 3위의 통신사 인도 에어텔의 경우 30개 모니터링 도구를 사용하고 있었는데 상관규칙에 따라 4개 레거시 시스템을 통합했다. 이를 통해 네트워크 중단시간의 75%를 단축하고 48%의 해결시간 단축을 가능케 했다”고 설명했다.

<이상일 기자>2401@ddaily.co.kr

이상일
2401@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널