Database Partitioning and Sharding

Modern applications often deal with large volumes of data and need to serve thousands or millions of users with low latency.

A single database server can’t always handle this scale efficiently.
This is where partitioning and sharding come into play — strategies to divide and conquer data across multiple locations, improving performance, scalability, and availability.

What is Database Partitioning?

Database partitioning means splitting a large database table into smaller, more manageable pieces, called partitions, while keeping them logically part of the same table. Each partition holds a subset of the data, and queries are directed to the appropriate partition(s) based on the data distribution rules.

Types of Partitioning

Horizontal Partitioning: Divides a table by rows. Each partition contains a subset of rows.Example: A Users table partitioned by region – Partition 1: Asia, Partition 2: Europe, Partition 3: America.
Vertical Partitioning: Divides a table by columns. Frequently accessed columns are stored separately.Example: Store id, name, email in one partition, and profile_picture in another.
Range Partitioning: Splits data based on value ranges.Example: Orders by year – 2020 in Partition 1, 2021 in Partition 2, 2022 in Partition 3.
List Partitioning: Partitions based on specific values.Example: Products by category – Electronics in Partition 1, Furniture in Partition 2.
Hash Partitioning: Uses a hash function to distribute rows.Example: HASH(user_id) % 4 to divide into 4 partitions.

Benefits of Partitioning

Improved Query Performance
Easier Maintenance (backup/delete only one partition)
Better Parallelism for queries
Logical Data Separation

What is Sharding?

Sharding is a type of horizontal partitioning, but each partition (shard) is stored on a different physical database server or node. It’s a strategy to scale out your database by distributing data across multiple machines, essential for large-scale distributed systems.

How Sharding Works

Data is divided by a shard key (e.g., user_id).
Each shard stores a subset of the data.
A routing layer determines which shard should receive a query.

Sharding Strategies

Range-Based Sharding: User IDs 1–1000 → Shard 1, 1001–2000 → Shard 2
Hash-Based Sharding: HASH(user_id) % 4 to get 4 shard locations
Geo-Based or Directory-Based Sharding: Users in India → Shard 1, USA → Shard 2

Benefits of Sharding

Horizontal Scalability (add machines)
Improved Performance (queries hit specific shards)
High Availability (shards can be replicated)

Challenges in Sharding

Complex Design and Infrastructure
Cross-Shard Queries are difficult
Rebalancing Shards is costly
Data Consistency across shards is hard to maintain

Partitioning vs Sharding – What’s the Difference?

Feature	Partitioning	Sharding
Definition	Dividing data into parts in one DB	Distributing data across multiple DBs
Scope	Within a single server	Across multiple machines
Main Goal	Query Optimization	Scalability and High Availability
Complexity	Moderate	High (routing, replication)
Data Distribution	Local (one DB server)	Distributed (multiple DB servers)
Use Case	Splitting logs by month	Splitting users by region

When to Use Partitioning

Your data fits on one machine but needs optimization
You want to isolate old/cold data
You want to backup or maintain subsets of data independently

When to Use Sharding

Your data volume exceeds single-machine limits
You need high read/write throughput
You want to distribute users/traffic across regions

Real-World Examples

Company	Strategy Used	Details
Facebook	Sharding	Users distributed across thousands of MySQL instances
Amazon	Both	Orders partitioned, warehouses sharded geographically
MongoDB	Sharding built-in	Collections can be automatically sharded
PostgreSQL	Partitioning native	Sharding with Citus extension

Tools and Technologies

Technology	Partitioning	Sharding
PostgreSQL	Yes (native)	Yes (with Citus)
MySQL	Yes (partitions)	Yes (manual or via Vitess)
MongoDB	Limited	Yes (native)
Cassandra	No	Yes (automatically distributes data)
Elasticsearch	Yes (via shards)	Yes (native)

Summary

Partitioning is about breaking a large table into smaller, manageable parts within the same server to improve performance. Sharding is about distributing data across multiple servers to achieve scalability and high availability.

Use partitioning when your system is contained within a single server and you want to improve performance and manageability. Use sharding when your system needs to grow beyond the limits of a single machine.