산업인공지능특강_MACHBASE

2019-08-19 이민예

4차 산업혁명 " 데이터 혁명 "

스마트 팩토리에서 plc, opc 데이터를 다룸.

  • 지능화

  • 초연결

  • 개인화

  • 융합

Industry 4.0

데이터베이스 비교

DB제품

가격

메모리 용량

시계열데이터

특징

Oracle

900$

NoSQL

무료

Hadoop

운용비가 비쌈

[ Reference ] https://hamait.tistory.com/440

어떻게 많은 데이터를 저장할까?

포스코 2mesc 1TB/일

마크 500-700억 건 AWS : 2700만원

포스코 스마트 팩토리

클라우드 컴퓨팅 vs 엣지 컴퓨팅

엣지 (기기 - 라즈베리파이, 삼성 아틱) 에서 데이터를 처리함. 라즈베리파이에 초당 30만건을 저장하고, 분석한다. 로우 데이터는 현장에서만 보아도 된다. 한달 후, 제품을 출고 할 때, QA 로 확인하면 된다. 필요한 데이터만 클라우드에 올린다.

  • 클라우드 비용이 비쌈

  • 클라우드 응답 속도가 느림

    • 어떤 비정상 상황을 나타내는 값이 출현하면, 빨리 대응을 해야한다. 이 값을 분석하기 위해서 클라우드에 전송되고, 처리한 후에 다시 단말로 응답을 보내는 것이 적절하지 않다. 그런 이유로 단말(edge)에 데이터를 저장 및 실시간 분석을 하는 것이다. 기타 이유로는 네트워크망 혹은 클라우드 시스템이 장애가 발생하더라도, 단말의 비즈니스는 가능하도록 하기 위해서이다 (고가용)

IoT

인터넷이라는 개념이 나오면서, 성장함

Strategic Technology Trend (Gatner)

Autonomous Things : Things 안에 들어가는 AI

RTDB

  • RTDB (Real Time Data Base) 40년간 이어져온 편리한 솔루션임에도 불구하고, 한 서버당 한 RTDB를 가지기 때문에 클러스터링 하기 어려움.

  • 파이프라인이 되는 드라이브 PLC(Programmable Logic Controller - HW&SW 프로토콜)는 설비에서 나오는 데이터를 서버에 던져주는 역할을 함.

  • 공장에서의 설비는 다양한 이기종의 PLC들이 사용되며, 한대의 서버로 모여야함. 따라서, 이러한 PLC들을 수용하는 RTDB가 필요함. 하지만, 1 PLC 당 RTDB는 천만원이며, 2만개의 센서가 RTDB에 필요함. 인증서는 5억. 따라서 맨먼스를 포함한 총 13억 ~ 16억이 필요하여, 대기업(포스코, 현대제철)들만 사용하고 있음.

  • 기업별 기술라인

    • 한라시멘트:

    • 현대제철: RTDB

    • 한일 : PHD

    • GE : Predix(망함, 하둡기반, 고객 최적화 불가)

    • SKT : 메타..?

  • 따라서, OT( Operation Technology -> 공정에 필요한 기술 )의 영역으로 전환됨.

엔터프라이즈 단어 익숙해지기.

DB를 구성하는 가장 큰 단위 : 테이블 > 칼럼

DB를 구성하는 가장 작은 단위 : 필드

RDB : Transaction 을 포함해서 구현함.

특화된 테이블 제공

Volatile Table : 휘발성 메모리 데이터 저장소

  • 휘발성 데이터

  • 스냅샷 데이터

  • META 정보가 메모리에 들어감

Lookup Table : 비휘발성 데이터 저장소

  • 기준 정보 데이터

  • 디스크 저장 유지

  • PK기반 입력, 수정, 삭제

Log Table : 디스크 기반 로그성 데이터 저장소

  • 긴 데이터 형태 (ex. 텍스트 또는 긴숫자)

  • PLC데이터를 그대로 받을 경우, 정수 형태가 아님.

Tag Table : 디스크 기반 센서 데이터 저장소

  • 심플한 데이터 형태 (ex. 센서의 정수값 23.0)

  • 통계를 내기 쉬움

  • Field 가 Id, Time, Value 임.

  • Transaction 및 업데이트 제공 안함 -> 데이터의 변조/위조 방지

  • UCL(Upper Control Limit) ~ LCL(Lower Control Limit) 안에 범위에 있으면, 정상으로 인지함.

  • 빠른 입력, 압축, 저장, 통계

  • 하루에서 200~300억건의 데이터에서 시간 범위에 대한 질의 1초 이내 수행 가능

  • Rollup Table : 이상이 있는 것을 빠르게 추출함 -> 가시성, 적시성

  • STREAM Table : INSERT INTO...SELECT...

    • ex. INSERT INTO Event SELECT * FROM Temper WHERE VALUE > 60;

    • <"tag1", 2019.08.01, 23.4>

OLAP & OLTP

OLTP : Transaction 데이터의 정합성을 확인

OLAP : Analysis Columnar Store -> 시간과 센서의 ID 형태로 저장된 매트릭스 데이터

DB 속도 개선

  • 데이터 들어가기 전 파싱

  • LSM(Log-Structured Merge-Tree) 인덱스 적용

  • 고성능 압축 (restore이 아닌 mount기능으로 가져옴)

실습

  • 파일 LIMIT 설정

    • 설정값 확인(디폴트 1024) : ulimit -Sn

    • limit 수정 -> 65535

      • cd /etc/security/limits.d

      • vi nofile.conf

  • TIMEZONE 설정

    • ls -l /etc/localtime

  • 방화벽 포트 설정

    • vi /etc/sysconfig/iptables -> 외부에서 접속가능하게 설정

  • 재부팅

커널 : 도스 프롬포트에서 명령어는 커널을 통해서 하드웨어에 접근한다.

rpm 또는 deb는 특정 패키지에서만 설치가 가능하지만, tgz는 모든 리눅스 배포판에서 컴파일이 가능하므로, 설치 자유도가 높은 Tarbell (.tgz) 설치 권장

sudo adduser machbase

wget & tar zxf 을 통해 패키지 다운로드 및 압축 해제

환경설정 : .bashrc에 내용을 추가 sourcd .bashrc

Last updated