Giải pháp lưu trữ dữ liệu lớn

Minh Thảo tổng hợp

Giải pháp lưu trữ dữ liệu lớn (TBVTSG) – Việc quản lý, truy xuất cơ sở dữ liệu có dung lượng lớn, đồng thời dung lượng tăng rất nhanh, luôn là những thách thức với các chuyên gia trong lĩnh vực công nghệ thông tin.

Theo ông Richard Winter, chuyên gia tư vấn dịch vụ và công nghệ WinterCorp., xu hướng tăng dữ liệu lưu trữ đã chuyển sang giai đoạn mới. Chính vì vậy, cùng với các giải pháp xử lý cơ sở dữ liệu phân tán như Hadoop, MapReduce, NoSQL đã có nhiều giải pháp mới như hệ thống lại các tập tin, cấu trúc lại cách sắp xếp dữ liệu mới. Winter cho biết đây là lĩnh vực đang bùng nổ trên thị trường hiện nay.

Bạn nghĩ gì khi ổ cứng trên máy tính của bạn đã đầy dữ liệu, không còn khả năng lưu trữ, trong khi mỗi ngày bạn phải nhận một lượng dữ liệu rất lớn từ nhiều nguồn khác nhau? Mở rộng ra, khi hệ thống lưu trữ trên các trung tâm dữ liệu (Data Center) bị mất kiểm soát, trong khi bạn đang lưu trữ 450 tỉ đối tượng dữ liệu, đồng thời gần 40 terabyte (40.000 gibabyte) dữ liệu tăng lên mỗi tuần, chắc chắn rằng hệ thống mạng máy tính sẽ tê liệt hoàn toàn.

Các chuyên gia công nghệ thông tin (CNTT) đã biết khá rõ những khó khăn, thách thức trong việc quản lý hệ thống cơ sở dữ liệu lớn, đòi hỏi những phương pháp mới để xử lý hàng tỉ đối tượng dữ liệu cũng như môi trường lưu trữ dữ liệu, đồng thời có thể dễ dàng truy xuất, sửa lỗi. Thư viện quốc gia Mỹ, trang web bán hàng trực tuyến Amazon cùng tập đoàn Mazda đã có những giải pháp cho vấn đề này.

Thư viện quốc gia Mỹ

Tại Thư viện quốc gia Mỹ, hệ thống máy tính phải xử lý 2,5 petabyte (2,5 triệu gigabyte) dữ liệu mỗi năm, đồng thời lượng dữ liệu tăng thêm 40.000 gigabyte mỗi tuần. Theo đánh giá của Thomas Youkel, Trưởng nhóm kỹ sư hệ thống tại thư viện này, lượng dữ liệu tải lên hệ thống lưu trữ sẽ tăng gấp bốn lần trong vài năm tới. Lượng thông tin nói trên hiện được lưu trữ trên 15.000-18.000 ổ đĩa, gắn trên 600 server của hai trung tâm dữ liệu, trong đó hơn 90% lượng dữ liệu (tương đương 3 triệu gigabyte) được lưu trên các ổ đĩa quang của mạng lưu trữ nội bộ (SAN – Storage Area Network).

Thư viện này đã triển khai mô hình mới dựa trên cơ chế quản lý dữ liệu Metadata (Metadata được xem là giải pháp siêu dữ liệu, dùng để mô tả tài nguyên thông tin). Greg Schulz, chuyên gia tư vấn về lưu trữ dữ liệu của công ty StorageIO, cho biết đã có nhiều tổ chức sử dụng cơ chế Metadata nhưng thành công của thư viện này là vẫn giữ được kích thước tuyệt đối của dữ liệu và mô tả được toàn bộ dữ liệu như các đoạn ghi âm, video, hình ảnh và các phương tiện truyền thông khác. Các dữ liệu ít được truy cập đến sẽ được lưu trữ trên băng từ để có thể lưu trữ lượng dữ liệu lớn đáng kể. Ngoài ra, nhóm nghiên cứu của Youkel đã bắt đầu xem xét lại hệ thống tên miền của thư viện cũng như các hệ thống tập tin mới để có thể xử lý nhiều đối tượng hơn trong cơ sở dữ liệu của thư viện.

Trang web Amazon

Hiện nay, trang web thương mại điện tử khổng lồ Amazon.com đã trở thành một trong những nơi có tổ chức dữ liệu lớn nhất trên thế giới, với khoảng 450 tỉ đối tượng dữ liệu được lưu trữ trong các đám mây, gồm dữ liệu của khách hàng và dữ liệu riêng của Amazon. Trong đó có một số đối tượng có dung lượng khá lớn, lên đến 5 terabyte mỗi đối tượng.

Theo bà Alyssa Henry, Phó chủ tịch phụ trách dịch vụ lưu trữ của Amazon, kích thước một đối tượng dữ liệu sẽ đạt 500 terabyte vào năm 2016. Để giải quyết điều này, các đối tượng dữ liệu sẽ được chia ra thành nhiều thành phần và sẽ được xử lý song song. Trong dịch vụ lưu trữ S3 của mình, Amazon sử dụng mã của chính khách hàng để chia thành từng gói dữ liệu có kích thước 1 gigabyte và làm thế nào để quá trình xử lý dữ liệu phải nhanh, đáp ứng theo thời gian thực. “Cấu trúc lưu trữ được gọi là “luôn luôn sẵn sàng” của Amazon sẽ giúp việc tìm kiếm, phục hồi dữ liệu nhanh hơn”, Henry giải thích.

Một vấn đề khác trong việc xử lý dữ liệu lớn là các tập tin bị lỗi, khi xử lý gần 450 tỉ đối tượng thì việc đạt được tỷ lệ lỗi thấp là thách thức rất lớn đối với công tác quản lý dữ liệu. Hệ thống phần mềm của Amazon sẽ phân tích tất cả các mảnh dữ liệu đã chia ở những nơi có chất lượng lưu trữ kém, tính toán và phân tích làm thế nào để một lỗi dữ liệu có thể được sửa chữa nhanh nhất để lưu trữ trên các đám mây của Amazon.

Công ty Mazda

Tập đoàn xe hơi Mazda với 900 đại lý và 800 nhân viên tại Mỹ phải quản lý lượng dữ liệu khoảng 90 terabyte. Theo Barry Blakeley, kiến trúc sư về hạ tầng của Mazda ở khu vực Bắc Mỹ, các đơn vị kinh doanh và các đại lý từng ngày đang làm tăng đáng kể lượng dữ liệu của công ty như các tập tin phân tích dữ liệu, cơ sở dữ liệu thông minh cho hoạt động kinh doanh, tài liệu tiếp thị. Tuy nhiên, tất cả đã được ảo hóa kể cả việc lưu trữ, Blakeley cho biết. Mazda sử dụng các giải pháp của Dell để ảo hóa việc lưu trữ, làm mạng lưu trữ nội bộ (SAN) cũng như hệ thống máy chủ ảo.

Blakeley cho biết 80% dữ liệu của Mazda trở nên cũ trong vòng vài tháng, có nghĩa là một khối dữ liệu lớn sẽ được truy cập rất ít, điều quan trọng là phải di chuyển nhanh chóng lượng dữ liệu này.

Để thích ứng với thực tế này, hệ thống lưu trữ ảo được thiết lập theo cấu trúc nhiều tầng, tầng trên là các ổ đĩa có thể truy xuất nhanh lưu được khoảng 20% dữ liệu cần thiết nhất và thường xuyên được truy cập nhất, các dữ liệu còn lại tùy theo mức độ truy xuất sẽ được lưu ở các tầng thứ hai hay thứ ba.

Hiện tại, Mazda đang chuyển sang mô hình dữ liệu gọi là “Tiếp tục kinh doanh”, nghĩa là nguồn dữ liệu được cung cấp cho khách hàng sẽ mới nhất, sống động nhất thay cho mô hình cũ – cứ phải đi khôi phục và tìm kiếm dữ liệu, Blakeley cho biết.

Tóm lại, theo ông Schulz của Công ty StorageIO, nhiều công ty hay tổ chức khác có thể mô phỏng một số quy trình từ công ty ông như cách kiểm tra các file lưu trữ, giám sát các ổ đĩa lỗi, cảnh báo cho các nhân viên CNTT trạng thái của hệ thống, kết hợp với Metadata cũng như các phương pháp kiểm tra dữ liệu. Tuy nhiên, điều quan trọng nhất khi xử lý một lượng lớn dữ liệu là lựa chọn công nghệ phù hợp với nhu cầu thực tế và trong những năm kế tiếp chứ không phải là công nghệ rẻ nhất. Như vậy, việc xử lý lượng dữ liệu lớn sẽ đặt ra nhiều thách thức nhưng cũng sẽ có nhiều con đường dẫn đến thành công.

Giải pháp lưu trữ dữ liệu lớn

BÌNH LUẬN Hủy trả lời

Tin liên quan

TPHCM sẽ có trung tâm cách mạng công nghiệp 4.0 vào tháng 9 tới

Nhu cầu về điện sẽ tăng gấp đôi vào 6 năm tới

Nhà sản xuất tấm pin mặt trời ở Mỹ kiến nghị áp thuế phạt hàng nhập khẩu từ Đông Nam Á

Doanh nghiệp Việt làm gì để bắt nhịp Martech khi có thêm AI tạo sinh?

Phiên đấu thầu vàng miếng ngày 25-4 bị hủy

Tổ chức Ngày Chung tay gói quà trước thềm Caravan lần thứ 32

Có thể bạn quan tâm

TPHCM sẽ có trung tâm cách mạng công nghiệp 4.0 vào tháng 9 tới

Nhu cầu về điện sẽ tăng gấp đôi vào 6 năm tới

Nhà sản xuất tấm pin mặt trời ở Mỹ kiến nghị áp thuế phạt hàng nhập khẩu từ Đông Nam Á

Doanh nghiệp Việt làm gì để bắt nhịp Martech khi có thêm AI tạo sinh?

Phiên đấu thầu vàng miếng ngày 25-4 bị hủy

Tổ chức Ngày Chung tay gói quà trước thềm Caravan lần thứ 32

Cấm xe tải nặng qua đèo Bảo Lộc theo giờ cao điểm dịp lễ 1-5

Tỷ giá ngoại tệ đồng loạt giảm

Thêm quy định để hoàn thiện quỹ phát triển đất

ASIFMA góp ý về tiêu chí nâng hạng thị trường chứng khoán Việt Nam

Hàng chục ngàn hecta lúa, hoa màu bị ảnh hưởng do hạn hán, thiếu nước

Gamuda sở hữu quỹ đất chiến lược phát triển bất động sản thấp tầng tại TPHCM

Tin mới

Thử bàn về dự án đường sắt tốc độ cao Bắc – Nam

TPHCM sẽ có trung tâm cách mạng công nghiệp 4.0 vào tháng 9 tới

Nhu cầu về điện sẽ tăng gấp đôi vào 6 năm tới

Nhà sản xuất tấm pin mặt trời ở Mỹ kiến nghị áp thuế phạt hàng nhập khẩu từ Đông Nam Á

Doanh nghiệp Việt làm gì để bắt nhịp Martech khi có thêm AI tạo sinh?