세연아이넷㈜은 20여년의 SI프로젝트 경험을 바탕으로 SI개발자 또는 컨설턴트, 빅데이터 분석가들이 가장 어려워 했던, 그리고 절실히 필요로했던 비정형 파일의 본문을 분석하여 필드와 필드데이터로 자동 분류해주고 표준 항목별 코드를 자동 생성해 주는 솔루션을 개발했다.
미국과 선진국들도 몇 년 전부터 비정형 파일의 목록분류 작업을 수작업으로 처리해 빅데이터 분석이 가능 하도록 했던 것을 세연아이넷이 자동화 해 줌으로서 공공 및 민간 기업이 보유하고 있는 각종의 비정형데이터들을 쉽게 분류해 빅데이터 분석이 가능 하도록 했다.
또한 국립중앙도서관등에서 소장하고 있는 책들을 이미지스캔 하여 본문의 내용을 목록과 필드 및 필드데이터로 분류 하여 웹에서도 쉽게 내용 검색이 되도록 하였으며 각종 장르별 책자들의 내용별 분류가 가능하도록 했다.
하루에도 수십건씩 쌓이는 서류 더미에 압사당할지도 모르겠다. 때마다 잘 정리해놓으면 적재적소에 쓰겠지만, 현실적으로 막막하기만 할 따름이다. 공공기관과 민간기업등 잠재된 비정형 파일과 원본 종이문서를 수집해 정형 데이터화하는 목록 자동분류 솔루션이 있다면 이러한 상황을 미연에 방지할 수 있다.
세연아이넷이 개발한 동기적 문서지향 솔루션 ‘사이도스(SyDos Ver3.1)’는 이러한 문제를 슬기롭게 극복할 수 있는 수단이다.사이도스는 문서형식의 데이터 중 본문을 분석해 목록과 항목, 내용 등을 자동 추출해 규격화해준다. 보기 항목을 자동으로 생성한 다음에는 웹에서도 검색할 수 있다. RDB는 물론이고 NoSQL DB와도 연동해 비정형 데이터를 마치 정형 데이터처럼 분석해서 사용할 수도 있다. 비정형데이터를 정형데이터로 변환 시킨 후 다시 hwp, PDF, Excel등 레포트 출력이 가능 하다.
세연아이넷은 이러한 사이도스 구현을 위해 XML과 HTML5를 활용한 빅데이터 분석 시스템을 개발하는데 힘썼다. 개발에 대한 노력으로 세연아이넷은 ‘RTE 기반 빅데이터 분석 시스템과 개발 방법론’에 대한 특허까지 따내는데 성공했다. 모든 비정형 데이터를 정형화시켜 어디서든 활용할 수 있는 솔루션도 개발해 사이도스 완성도를 더 높였다.