인덱싱(Indexing) 전략과 최적화

728x90

출처: https://www.lexogen.com/rna-lexicon-indexing-strategies-and-solutions/

데이터베이스의 성능을 최적화하는 데 있어 인덱스(Index)는 필수적인 요소입니다. 인덱스를 적절하게 설계하고 활용함으로써 데이터 검색 속도를 획기적으로 향상시킬 수 있습니다. 하지만 인덱스를 과도하게 사용하거나 부적절하게 설계할 경우 오히려 성능 저하와 관리의 어려움을 초래할 수 있습니다.

인덱스(Index)란?

인덱스(Index)는 데이터베이스에서 특정 컬럼의 값을 기반으로 데이터를 빠르게 검색할 수 있도록 도와주는 자료구조입니다. 책의 목차처럼, 인덱스는 데이터베이스 테이블의 특정 컬럼에 대한 참조 정보를 저장하여 검색 속도를 향상시킵니다.

기본 구조

인덱스는 보통 B-트리(B-tree)나 해시(Hash)와 같은 자료구조를 사용하여 구현됩니다. 이러한 자료구조는 데이터를 정렬하거나 해시 함수를 사용하여 빠른 검색을 가능하게 합니다.

예제

아래는 MySQL에서 인덱스를 생성하는 간단한 예제입니다.

-- Users 테이블에 username 컬럼에 대한 인덱스 생성
CREATE INDEX idx_username ON Users(username);

인덱스의 중요성

인덱스는 데이터베이스의 검색 성능을 크게 향상시키는 역할을 합니다. 인덱스가 없을 경우, 데이터베이스는 전체 테이블을 순차적으로 검색해야 하므로 검색 속도가 느려질 수 있습니다. 반면, 인덱스를 사용하면 검색하려는 값을 빠르게 찾아낼 수 있습니다.

인덱스의 장점

빠른 데이터 검색: 대용량 데이터에서도 빠르게 원하는 데이터를 검색할 수 있습니다.
정렬 성능 향상: ORDER BY 절을 사용할 때 정렬 성능을 향상시킬 수 있습니다.
집계 함수 최적화: GROUP BY, COUNT, SUM 등의 집계 함수 성능을 향상시킬 수 있습니다.

인덱스의 단점

쓰기 성능 저하: 데이터 삽입, 업데이트, 삭제 시 인덱스도 함께 수정되므로 쓰기 성능이 저하될 수 있습니다.
저장 공간 소모: 인덱스는 추가적인 저장 공간을 필요로 합니다.
관리 복잡성: 인덱스의 생성과 유지 관리가 추가적인 노력을 필요로 합니다.

인덱스의 유형

인덱스는 다양한 자료구조와 용도에 따라 여러 유형으로 분류됩니다. 각 인덱스 유형은 특정 상황에서 최적의 성능을 발휘할 수 있도록 설계되었습니다.

B-트리 인덱스

B-트리 인덱스는 가장 일반적으로 사용되는 인덱스 유형으로, 범위 쿼리와 정렬된 데이터에 적합합니다. B-트리는 균형 잡힌 트리 구조로, 모든 리프 노드가 동일한 깊이를 가집니다.

특징

균형 잡힌 구조: 데이터 삽입과 삭제에도 균형을 유지합니다.
범위 쿼리에 최적화: BETWEEN, >, < 등의 범위 조건에서 빠른 검색이 가능합니다.
정렬 지원: ORDER BY 절을 사용할 때 성능 향상에 기여합니다.

예제

-- PostgreSQL에서 B-트리 인덱스 생성 (기본 인덱스 유형)
CREATE INDEX idx_order_date ON Orders(order_date);

해시 인덱스

해시 인덱스는 키-값 매핑을 기반으로 빠른 검색을 지원하지만, 범위 쿼리는 지원하지 않습니다. 해시 인덱스는 해시 함수를 사용하여 데이터를 저장하고 검색합니다.

특징

상수 시간 검색: 키 기반 검색에서 매우 빠른 성능을 발휘합니다.
범위 쿼리 불지원: 해시 인덱스는 키의 순서에 의존하지 않으므로 범위 검색에 적합하지 않습니다.
충돌 가능성: 해시 충돌이 발생할 수 있으며, 이를 해결하기 위한 추가적인 처리 필요.

예제

-- PostgreSQL에서 해시 인덱스 생성
CREATE INDEX idx_email_hash ON Users USING HASH(email);

비트맵 인덱스

비트맵 인덱스는 데이터의 비트맵을 사용하여 인덱스를 생성하며, 주로 열이 낮은 기수성을 가질 때 유용합니다. 비트맵 인덱스는 각 고유 값에 대한 비트맵을 저장하여 빠른 집계와 조인을 지원합니다.

특징

빠른 집계 및 조인: 다수의 데이터에 대해 집계 연산을 빠르게 수행할 수 있습니다.
공간 효율적: 데이터의 기수성이 낮을 경우 저장 공간을 절약할 수 있습니다.
읽기 전용에 최적화: 데이터 변경이 적은 환경에서 효과적입니다.

예제

-- Oracle에서 비트맵 인덱스 생성
CREATE BITMAP INDEX idx_user_status ON Users(status);

FULLTEXT 인덱스

FULLTEXT 인덱스는 텍스트 검색을 최적화하기 위해 사용됩니다. 대량의 텍스트 데이터에서 단어의 존재 여부나 빈도수를 빠르게 검색할 수 있도록 도와줍니다.

특징

텍스트 검색 최적화: 자연어 검색, 키워드 검색에 적합합니다.
복잡한 검색 쿼리 지원: 논리 연산자(AND, OR)와 같은 복잡한 검색 조건을 지원합니다.
관련성 기반 검색: 검색 결과의 관련성을 기반으로 정렬할 수 있습니다.

예제

-- MySQL에서 FULLTEXT 인덱스 생성
CREATE FULLTEXT INDEX idx_article_content ON Articles(content);

인덱스 설계 원칙

효과적인 인덱스 설계를 위해서는 몇 가지 원칙을 따르는 것이 중요합니다. 잘 설계된 인덱스는 검색 성능을 극대화하면서도 쓰기 성능과 저장 공간을 효율적으로 관리할 수 있습니다.

자주 조회되는 컬럼에 인덱스 생성

가장 기본적인 인덱스 설계 원칙 중 하나는 자주 조회되는 컬럼에 인덱스를 생성하는 것입니다. 특히 WHERE 절이나 JOIN 절에 자주 사용되는 컬럼은 인덱스를 생성하여 검색 속도를 향상시킬 수 있습니다.

예제

-- Orders 테이블에서 customer_id 컬럼에 인덱스 생성
CREATE INDEX idx_orders_customer_id ON Orders(customer_id);

복합 인덱스 활용

복합 인덱스(Composite Index)는 여러 컬럼을 조합하여 하나의 인덱스를 생성하는 것입니다. 복합 인덱스는 다중 컬럼을 사용하는 쿼리에서 효율적인 검색을 가능하게 합니다.

예제

-- Orders 테이블에서 customer_id와 order_date 컬럼에 대한 복합 인덱스 생성
CREATE INDEX idx_orders_customer_date ON Orders(customer_id, order_date);

적절한 인덱스 선택

인덱스의 유형과 구조를 데이터의 특성과 쿼리 패턴에 맞게 선택하는 것이 중요합니다. 예를 들어, 범위 쿼리가 자주 사용된다면 B-트리 인덱스가 적합하고, 키 기반 검색이 주로 이루어진다면 해시 인덱스가 적합할 수 있습니다.

예제

-- B-트리 인덱스: 범위 쿼리에 최적화
CREATE INDEX idx_products_price ON Products(price);

-- 해시 인덱스: 키 기반 검색에 최적화
CREATE INDEX idx_users_email_hash ON Users USING HASH(email);

인덱스의 과도한 사용 피하기

인덱스는 검색 성능을 향상시키지만, 과도하게 사용하면 쓰기 성능 저하와 저장 공간 낭비를 초래할 수 있습니다. 따라서 실제로 필요한 인덱스만 생성하고, 불필요한 인덱스는 제거하는 것이 중요합니다.

예제

-- 불필요한 인덱스 제거
DROP INDEX idx_orders_customer_id ON Orders;

인덱스 최적화 전략

인덱스는 데이터베이스 성능을 향상시키는 데 중요한 역할을 하지만, 인덱스의 생성과 관리는 추가적인 노력을 필요로 합니다. 다음은 인덱스를 최적화하기 위한 주요 전략들입니다.

인덱스 재구성 및 재빌드

인덱스는 데이터 삽입, 업데이트, 삭제 등의 작업을 거치면서 단편화(Fragmentation)가 발생할 수 있습니다. 단편화가 심해지면 인덱스의 검색 성능이 저하될 수 있으므로, 정기적으로 인덱스를 재구성하거나 재빌드하는 것이 필요합니다.

예제

-- PostgreSQL에서 인덱스 재구성
REINDEX INDEX idx_orders_customer_date;

-- MySQL에서 인덱스 재빌드
ALTER TABLE Orders DROP INDEX idx_orders_customer_date, ADD INDEX idx_orders_customer_date(customer_id, order_date);

통계 업데이트

데이터베이스 옵티마이저는 통계를 기반으로 최적의 실행 계획을 선택합니다. 따라서 인덱스의 통계를 최신 상태로 유지하는 것이 중요합니다.

예제

-- PostgreSQL에서 통계 업데이트
ANALYZE Orders;

-- MySQL에서 통계 업데이트
ANALYZE TABLE Orders;

쿼리 튜닝과 인덱스 활용

효율적인 쿼리 작성은 인덱스의 성능을 극대화하는 데 도움이 됩니다. 쿼리의 WHERE 절과 JOIN 조건에 인덱스가 잘 활용되도록 쿼리를 작성해야 합니다.

예제

-- 인덱스를 활용한 효율적인 쿼리
SELECT u.username, o.order_id
FROM Users u
JOIN Orders o ON u.user_id = o.customer_id
WHERE u.email = 'john@example.com'
ORDER BY o.order_date DESC;

불필요한 인덱스 제거

사용되지 않는 인덱스는 쓰기 성능을 저하시킬 뿐만 아니라 저장 공간을 낭비할 수 있습니다. 주기적으로 사용되지 않는 인덱스를 식별하고 제거하는 것이 중요합니다.

예제

-- MySQL에서 사용되지 않는 인덱스 제거
DROP INDEX idx_unused ON Users;

인덱스 사용 시 고려사항

인덱스는 강력한 도구이지만, 사용 시 몇 가지 중요한 고려사항이 있습니다. 이를 이해하고 적절히 관리함으로써 인덱스의 장점을 최대한 활용할 수 있습니다.

데이터 삽입, 업데이트, 삭제 시 성능 영향

인덱스는 읽기 성능을 향상시키지만, 데이터 삽입, 업데이트, 삭제 시 인덱스도 함께 수정되어야 하므로 쓰기 성능이 저하될 수 있습니다. 따라서 인덱스를 생성할 때는 읽기와 쓰기 간의 균형을 고려해야 합니다.

예제

-- 인덱스가 없는 경우 데이터 삽입 속도
INSERT INTO Orders (customer_id, order_date) VALUES (1, '2024-04-01');

-- 인덱스가 있는 경우 데이터 삽입 속도
CREATE INDEX idx_orders_customer_date ON Orders(customer_id, order_date);
INSERT INTO Orders (customer_id, order_date) VALUES (1, '2024-04-01');

인덱스 저장 공간

인덱스는 추가적인 저장 공간을 필요로 합니다. 특히 대용량 데이터베이스에서는 인덱스가 차지하는 공간이 상당할 수 있으므로, 저장 공간을 효율적으로 관리해야 합니다.

예제

-- PostgreSQL에서 인덱스 크기 확인
SELECT pg_size_pretty(pg_relation_size('idx_orders_customer_date'));

인덱스 유지 관리 비용

인덱스는 정기적인 유지 관리가 필요합니다. 인덱스의 단편화, 통계 업데이트, 인덱스 재구성 등이 추가적인 관리 비용을 발생시킬 수 있습니다.

예제

-- MySQL에서 인덱스 재구성 및 통계 업데이트
ALTER TABLE Orders DROP INDEX idx_orders_customer_date, ADD INDEX idx_orders_customer_date(customer_id, order_date);
ANALYZE TABLE Orders;

인덱스는 데이터베이스 성능 최적화의 핵심 요소로, 적절한 인덱스 설계와 관리는 백엔드 애플리케이션의 효율성을 크게 향상시킬 수 있습니다. 백엔드 개발자는 이러한 인덱스 개념을 숙지하고, 실무에 적용함으로써 데이터베이스의 성능과 확장성을 효과적으로 관리할 수 있습니다.

참고 자료

https://www.geeksforgeeks.org/indexing-in-databases-set-1/

Indexing in Databases - Set 1 - GeeksforGeeks

A Computer Science portal for geeks. It contains well written, well thought and well explained computer science and programming articles, quizzes and practice/competitive programming/company interview Questions.

www.geeksforgeeks.org

https://learn.microsoft.com/en-us/sql/relational-databases/indexes/indexes?view=sql-server-ver16

Indexes - SQL Server

Indexes

learn.microsoft.com

https://www.postgresql.org/docs/current/indexes-types.html

11.2. Index Types

11.2. Index Types # 11.2.1. B-Tree 11.2.2. Hash 11.2.3. GiST 11.2.4. SP-GiST 11.2.5. GIN 11.2.6. BRIN PostgreSQL provides several index types: …

www.postgresql.org

https://dev.mysql.com/doc/refman/8.4/en/mysql-indexes.html

MySQL :: MySQL 8.4 Reference Manual :: 10.3.1 How MySQL Uses Indexes

10.3.1 How MySQL Uses Indexes Indexes are used to find rows with specific column values quickly. Without an index, MySQL must begin with the first row and then read through the entire table to find the relevant rows. The larger the table, the more this co

dev.mysql.com

https://www.geeksforgeeks.org/indexing-in-mongodb/

Indexing in MongoDB - GeeksforGeeks