Cơ sở dữ liệu dọc là gì?

Cơ sở dữ liệu dọc là cơ sở dữ liệu trong đó bố cục vật lý của dữ liệu là từng cột thay vì từng hàng. Thay vì được sắp xếp theo cấu trúc bản ghi ngang và được xử lý theo chiều dọc, dữ liệu trong cơ sở dữ liệu dọc được sắp xếp theo cấu trúc dọc, được gọi là cây vị từ hoặc cây P, và được xử lý theo chiều ngang.

Khai thác dữ liệu

Cơ sở dữ liệu ngang phù hợp với các ứng dụng trong đó kết quả được yêu cầu là một tập hợp các bản ghi theo chiều ngang, nhưng ít hơn đối với các ứng dụng như khai thác dữ liệu, nơi các nhà nghiên cứu thường quan tâm đến các kết quả có thể được diễn đạt ngắn gọn. Mặt khác, cây P rất phù hợp với việc khai thác dữ liệu. P-tree thường được tạo ra bằng cách phân tách từng thuộc tính, hoặc cột, của một bảng các bản ghi ngang thành các vectơ bit riêng biệt, hoặc cấu trúc dữ liệu mảng. P-tree có thể là một chiều, hai chiều hoặc nhiều chiều; nếu dữ liệu được lưu trữ trong cơ sở dữ liệu có các kích thước tự nhiên - ví dụ: dữ liệu không gian địa lý hoặc thông tin địa lý - thì các kích thước của cây P được khớp với kích thước của dữ liệu.

Hiệu suất

Dữ liệu trong cơ sở dữ liệu dọc được xử lý thông qua các toán tử logic nhanh, chẳng hạn như AND, OR, OR độc quyền và bổ sung. Hơn nữa, bằng cách sắp xếp dữ liệu theo cột thay vì theo hàng, có thể thực hiện các truy vấn hoặc tìm kiếm trên dữ liệu mà không cần truy cập các trang trên đĩa cứng không bị ảnh hưởng bởi truy vấn và do đó tăng tốc độ truy xuất dữ liệu . Đây là một cân nhắc quan trọng khi khai thác dữ liệu trong kho dữ liệu rất lớn.

Kích thước trang

Một ưu điểm khác của cơ sở dữ liệu dọc là chúng cho phép dữ liệu được lưu trữ trong các trang lớn. Kích thước trang lớn có nghĩa là một số lượng lớn các mục dữ liệu có liên quan có thể được truy xuất trong một thao tác đọc duy nhất. Ngược lại, một thao tác đọc trên cơ sở dữ liệu ngang không chỉ truy xuất các mục dữ liệu có liên quan mà còn truy xuất các thuộc tính hoặc cột không liên quan đến truy vấn được đề cập và ưu tiên kích thước trang nhỏ.

Ứng dụng khoa học

Cơ sở dữ liệu dọc đã nhận được sự quan tâm mới từ cộng đồng khoa học trong những năm gần đây. Số lượng người dùng đồng thời trong các ứng dụng cơ sở dữ liệu khoa học thường nhỏ hơn nhiều so với các ứng dụng thương mại, nhưng người dùng có xu hướng gửi các truy vấn phức tạp hơn, không lường trước được. Ngoài ra, các ứng dụng cơ sở dữ liệu khoa học thường phải cung cấp phản hồi tự động hơn cho các truy vấn phức tạp vì không có nhân viên hỗ trợ hệ thống và cơ sở dữ liệu. Người dùng khoa học thường thích làm việc với các hệ thống máy tính nội bộ, chuyên dụng, vì vậy các ứng dụng cơ sở dữ liệu khoa học cần phải có tính di động giữa các kiểu máy tính khác nhau. Trên tất cả các số lượng này, cơ sở dữ liệu dọc tốt hơn so với các cơ sở dữ liệu theo chiều ngang.