릴레이션의 분해로 인해 릴레이션 간의 연산(JOIN 연산) 증가되어 질의에 대한 응답 시간이 느려질 수 있다.
정규화를 수행한다는 것은 데이터를 결정하는 결정자에 의해 함수적 종속을 가지고 있는 일반 속성을 의존자로 하여 입력/수정/삭제 이상을 제거하는 것이다. 데이터의 중복 속성을 제거하고 결정자에 의해 동일한 의미의 일반 속성이 하나의 테이블로 집약되므로 한 테이블의 데이터 용량이 최소화되는 효과가 있다.
따라서 정규화된 테이블은 데이터를 처리할 때 속도가 빨라질 수도 있고 느려질 수도 있는 특성이 있다.
조회를 하는 SQL 문장에서 조인이 많이 발생하여 이로 인한 성능저하가 나타나는 경우에 반정규화 적용이 필요하다.
반정규화(De-normalization, 비정규화)
데이터베이스의 성능 향상을 위하여, 데이터 중복을 허용하고 조인을 줄이는 데이터베이스 성능 향상 방법이다.
반정규화는조회(select) 속도를 향상시키지만, 데이터모델의 유연성은 낮아진다.
반정규화의 대상
정규화에 충실하여 종속성, 활용성은 향상 되었지만 수행속도가 느려진 경우
다량의 범위를 자주 처리해야하는 경우
특정 범위의 데이터만 자주 처리하는 경우
요약/집계 정보가 자주 요구되는 경우
테이블에 지나치게 조인을 많이 사용하게 되어 데이터를 조회하는 것이 기술적으로 어려울 경우
반정규화 기법
계산된 컬럼 추가 배치 프로그램으로 총판매액, 평균잔고, 계좌평가를 미리 계산하고 그 결과를 특정 칼럼에 추가한다.
테이블 수직 분할 하나의 테이블의 두 개 이상의 테이블로 분할한다. 즉, 칼럼을 분할하여 새로운 테이블을 만드는 것이다.
흔히 백엔드 개발자들이 사용하는 MySQL이라 부르는 것은 MySQL 서버라고 부를 수 있다.
MySQL 서버는 두뇌 역할을 하는 MySQL실행 엔진이 있고, 손 발 역할을 하는 스토리지 엔진으로 구성된다.
이 둘은 핸들러 API를 통해 서로 통신을 주고 받는다.
쿼리의 실행 과정을 통해 아키텍처에 대해 알아보자.
간단한 join문으로 구성된 쿼리문을 실행한다.
select u.userIdx, u.userName, b.buyList from Buy
left join User as u on u.userIdx = b.userIdx
1. 쿼리 파서 (Parser)
사용자가 SQL 쿼리문을 날리게 되면 쿼리 파서가 요청을 수행한다.
이 쿼리 파서는 SQL 문장을 트리의 형태로 파싱한다.
이 트리 안에 있는 각각의 요소는 MySQL이 인지할 수 있는 최소한의 단위인 Token으로 파싱이 된다.
SQL 문법 오류 여부를 확인하고 예외가 있다면 예외 메세지를 반환한다.
2. 전처리기 (PreProcessor)
다음으로 전처리기에 파서 트리 데이터가 전달된다.
전처리기는 예약어를 제외한 Token을 검사해서 데이터베이스에 실제로 객체가 존재하는지, 실제로 그 객체에 사용자가 접근할 수 있는지 권한을 검증한다.
3. 옵티마이저 (QueryOptimizer)
전처리기에서 수행된 데이터를 바탕으로 옵티마이저에게 전달한다.
옵티마이저는 파서 트리를 실행 계획으로 바꾸는 역할을 한다. 가장 효율적인 방법으로 SQL을 수행할 최적의 처리 경로를 생성해주는 것을 목적으로 한다.
1. 데이터 접근 방법 결정 2. join 등 쿼리 재작성 및 실행 3. 테이블 접근/스캔 순서 결정하여 사용할 인덱스 선택
이런 옵티마이저는 크게 두 종류로 구분할 수 있다.
비용 기반 최적화와 규칙 기반 최적화로 나눌 수 있는데 전자는 MySQL에 존재하는 다양한 통계 정보를 활용해 수행 계획을 수립, 후자는 동일한 SQL이면 항상 동일한 SQL 실행 계획을 수립하는 것이다.
MySQL 포함한 대부분의 RDBMS는 비용 기반 최적화로 진행된다.
비용 기반 최적화
SQL문을 처리하는데 필요 비용이 가장 적은 실행 계획을 선택하는 방식이다.
비용이란 SQL문을 처리하기 위해 예상되는 소유시간 또는 자원 사용량을 의미하며 비용 기반 최적화는 테이블, 인덱스, 칼럼 등의 다양한 객체 통계정보와 시스템 통계정보 등을 이용한다.
비용기반은 통계정보가 없는 경우 불확실한 실행계획을 생성 할 수 있으므로 정확한 통계정보를 유지하는 것이 중요하다.
# 통계 정보란? (MySQL) 대략의 레코드 건수와 인덱스의 유니크한 값의 개수. 벤더마다 약간씩 차이가 있다. Memory 테이블은 별도 통계 정보가 없으며, MyISAM과 InnoDB의 테이블과 인덱스 통계 정보는 아래와 같이 확인 할 수 있다.
SHOW TABLE STATUS LIKE 'user_ldap_list'; SHOW INDEX FROM user_ldap_list;
# 통계정보 수집시 고려사항
시간 : 시스템 부하가 적은 날짜와 시간을 산정해 수집
샘플 크기 : 데이터베이스와 세그먼트의 크기에 비례해 일정 부분만 추출
정확성 : 오브젝트의 데이터와 통계정보의 데이터가 근접해야 함
안정성 : 통계정보 수집으로 인한 데이터베이스 성능 저하를 최소화해야 함
# 실행 계획이란? SQL에서 요구한 사항을 처리하기 위한 절차와 방법 실행계획에서 표시되는 내용 및 형태는 벤더마다 약간 차이는 있지만 실행계획이 SQL 처리를 위한 절차와 방법을 의미한다는 기본적인 사항은 모두 동일하다.
실행 계획은 여러 단계로 이뤄져 있는데 (스텝) 각각 스텝에서 어떤 명령이 수행되었고 몇 건의 데이터가 처리되었으며 얼마만큼의 비용과 시간이 소요되었는지를 표시한다.
규칙 기반 최적화
우선순위가 높은 규칙이 적은 일량으로 해당 작업을 수행하는 방법이다.
규칙 기반 최적화 옵티마이저가 실행계획을 생성할 때 참조하는 정보에는 SQL문을 실행하기 위해서 이용 가능한 인덱스 유무와 (유일, 비유일, 단일, 복합 인덱스) 종류, SQL문 에서 사용하는 연산자(=, <, <>, LIKE, BETWEEN 등)의 종류 그리고 SQL문에서 참조하는 객체(힙, 테이블, 클러스터 테이블 등)의 종류 등이 있다.
규칙 기반은 인덱스를 이용한 액세스 방식이 전체 테이블 액세스 방식보다 우선순위가 높으므로이용 가능한 인덱스가 존재하다면 항상 인덱스를 사용하는 실행계획을 생성하게된다. join 순서를 결정할 때는 join 컬럼 인덱스의 존재 유무가 중요한 판단기준이다.
규칙 기반은 정해진 규칙에 따라 만들어졌을때 BETWEEN 의 현실적인 데이터의 건수 등을 측정을 예측하지못한다.
4. 실행 엔진 (Query Executioin Engine)
다음으로 실행 엔진이다.
옵티마이저에서의 실행계획은 실행 엔진으로 전달되어 스토리지 엔진과 통신을 하여 데이터를 읽어오는 작업을 수행한다.
스토리지 엔진은 실행 엔진의 요청을 처리하기 위한 디스크로부터 데이터를 읽고 쓰는 작업을 한다. 실행 계획대로 각 핸들러에게 요청해서 받은 결과를 또 다른 핸들러 요청의 입력으로 연결하는 역할을 수행한다.
MySQL엔진과 다르게 여러개를 동시에 사용할 수 있다.
5. 핸들러(Storage Engine)
핸들러는 MySql 서버의 가장 밑단에서 MySql 실행 엔진의 요청에 따라 데이터를 디스크로 저장하고 디스크로부터 읽어오는 역할을 담당한다. 스토리지 엔진을 의미한다.
MySQL 엔진은 SQL interface, Parser, Preprocessor, Optimizer, Cache와 Buffer로 구성된다.
InnoDB 스토리지 엔진은 Transaction, Buffer pool, Clustering index, MVCC, Foreign key, Deadlock 감지 등이 있다.
MySQL 8.0 이후로부터 InnoDB 스토리지 엔진을 기본 엔진으로 사용하고 트랜잭션을 제공한다.
* InnoDB 스토리지 엔진
InnoDB 엔진(버퍼 풀, Undo log)과 디스크로 구성된다.
Set GLOBAL TRANSACTION ISOLATION
LEVEL REPEATABLE READ;
상단과 같이 트랜잭션 레벨을 repeatable read로 설정하고 insert문을 활용하여 데이터를 삽입하면 버퍼풀과 디스크에 해당 데이터가 같이 들어간 것을 확인할 수 있다. 이는 버퍼풀이 디스크의 데이터값을 캐싱했다는 것으로 확인할 수 있다.
다음으로 삽입한 데이터를 수정하고 커밋하면, 업데이트한 데이터가 버퍼풀에 반영이 되었고 이전의 데이터는 Undo Log에 추가된다.
디스크에 있는 데이터는 버퍼풀에서 쓰기 작업이 지연되고 있는 상태라면 이전의 데이터로 기록이 되고, 쓰기 작업이 일괄적으로 처리된 상태라면 업데이트된 데이터가 기록된다.
Undo Log에 있는 트랜잭션 Id가 있는데, 이는 실행한 트랜잭션의 id를 의미한다. (순차적으로 증가한다)
버퍼풀
버퍼풀은 데이터 캐싱하고 버퍼링시켜서 데이터를 읽고 쓰는 작업을 빠르게 한다.
MVCC (트랜잭션 동시성을 제어하는 방법)
하나의 레코드에 대해 여러 개의 버전을 관리 (트랜잭션 id)
잠금 없는 일관된 읽기를 제공한다.
-> MVCC, 정렬 처리방식, 복제는 다음 포스팅에서 더 다뤄보기!!
참고 - https://velog.io/@zerodin/%EC%98%B5%ED%8B%B0%EB%A7%88%EC%9D%B4%EC%A0%80%EC%99%80-%EC%8B%A4%ED%96%89%EA%B3%84%ED%9A%8D - https://youtu.be/8PRkLItDwXQ