(KTSG) - Không phải thông tin nào cũng là dữ liệu.
Dữ liệu (data) và thông tin (information) là hai thuật ngữ thường được sử dụng xen kẽ, đôi khi thay thế nhau. Tuy nhiên, dữ liệu là một khái niệm phức tạp hơn rất nhiều, gồm tập hợp các thông tin được sắp xếp theo quy luật.
Thông tin sẽ không có ý nghĩa gì đối với người không nắm được quy luật sắp xếp nhưng lại là dữ liệu quan trọng đối với người khác. Chẳng hạn, nếu đưa ra các ký hiệu số và chữ A20, F23, H35 chúng chỉ là những thông tin ngẫu nhiên, lộn xộn. Chỉ khi tiết lộ quy luật rằng chữ cái là hàng ghế, chữ số là số ghế, những thông tin trên mới trở thành dữ liệu để khán giả có thể tìm kiếm chỗ ngồi chính xác.
Từ đó, dữ liệu cá nhân là tập hợp các thông tin có sắp xếp liên quan đến nhiều khía cạnh của một con người cụ thể. Cá nhân đó có thể xác định được trực tiếp hoặc gián tiếp thông qua tham chiếu các thông tin như tên, địa chỉ, mã số cá nhân hoặc các công cụ định danh khác. Kể cả các thông tin rời rạc, không xác định danh tính cũng có khả năng trở thành dữ liệu cá nhân nếu sau khi được tập hợp, chúng có thể chỉ dẫn đến một người cụ thể.
Ngược lại, nếu thông tin đã trở nên vô danh, mất khả năng để xác định được người mang thông tin gốc thì không được xem là dữ liệu cá nhân. Ví dụ, với thông tin ngày sinh 12-10-2002 được xác định trong một phạm vi lớp học hay trường học, thông tin đó vẫn có khả năng trở thành dữ liệu cá nhân khi kết hợp với các dữ kiện khác. Nếu tách rời thông tin ngày sinh đó khỏi phạm vi trường học, khả năng truy xuất được cá nhân mang thông tin là rất thấp nên không còn là dữ liệu.
Cần bảo mật nhưng không tuyệt mật
Mỗi người đều có quyền đối với dữ liệu cá nhân của mình. Họ có quyền tiết lộ một vài thông tin cá nhân nhưng đồng thời vẫn phải được bảo đảm quyền riêng tư. Một trong những nguyên tắc quan trọng nhất khi thiết lập cơ chế bảo vệ dữ liệu cá nhân đó là phải cân nhắc về tính hữu dụng của biện pháp. Điều này không dễ dàng, bởi tính hữu dụng có phần xung đột với quyền riêng tư.
Dữ liệu cá nhân được bảo vệ cao nhất là khi không bộc lộ bất kỳ thông tin nào cả, nhưng việc này không hữu dụng; ngược lại, tính hữu dụng đạt được lớn nhất khi bộc lộ toàn bộ dữ liệu, nhưng lúc này quyền riêng tư lại không còn. Do vậy, quan trọng nhất là phải làm sao để dữ liệu cá nhân được đảm bảo an toàn nhưng đồng thời vẫn tạo ra giá trị hữu ích cho việc sử dụng hợp pháp và chính đáng.
Ở các hệ thống uy tín, tùy thuộc vào loại thông tin, chúng sẽ được bảo mật tuyệt đối, hoặc được áp dụng quy trình xóa nhận dạng (de-identification) để trở nên ẩn danh rồi cấp quyền sử dụng cho bên thứ ba liên quan hay thậm chí bán cho các tổ chức cần dữ liệu như công ty quảng cáo, ngân hàng, dược phẩm,…
Mong manh trong môi trường kỹ thuật số
Quy trình xóa nhận dạng nói trên là không hoàn hảo. Vào năm 2006, Netflix tổ chức một cuộc thi nhằm thăm dò và thu thập thông tin về sở thích phim ảnh của khoảng 480.000 khách hàng. Khi tham gia cuộc thi, người dùng phải cung cấp nhiều thông tin như tên, ngày sinh, số điện thoại, địa chỉ email. Netflix sau đó tuyên bố đã xóa định danh toàn bộ thông tin đó trên dữ liệu cuộc thi, khiến chúng trở nên không thể xác định được. Một nhóm nghiên cứu khi so sánh dữ liệu ẩn danh do Netflix công bố với một số hồ sơ cá nhân công khai trên các nền tảng phê bình điện ảnh như www.imdb.com đã xác định lại được danh tính của nhiều cá nhân tham gia cuộc thi.
Nhiều nền tảng lớn như Google, Facebook liên tục đứng trước các vụ bê bối làm lộ dữ liệu người dùng, trực tiếp hoặc gián tiếp để cho bên thứ ba truy cập trái phép dữ liệu. Sự việc còn có thể trở nên trầm trọng hơn nếu như nền tảng số bị tấn công đánh cắp dữ liệu, vốn đã từng diễn ra với 500 triệu tài khoản người dùng Yahoo từ năm 2013-2016.
Điều này một lần nữa khẳng định sự dễ tổn thương của thông tin trên môi trường số. Mặc dù dữ liệu đã được xóa nhận dạng để trở nên ẩn danh, nhưng công cụ tìm kiếm hiện đại cho phép người dùng dễ dàng truy cập lượng thông tin lớn và đa dạng. Từ đó, khi kết hợp các thông tin rời rạc, người ta có thể xây dựng lại được dữ liệu cá nhân của một người cụ thể.
Tại sao các nền tảng Internet lại tràn ngập thông tin để tạo điều kiện cho bên thứ ba có thể tập hợp lại thành dữ liệu cá nhân? Một nguyên nhân quan trọng là bởi phần lớn người dùng đều dễ dãi điền thông tin hoặc cấp quyền truy cập cho các nền tảng số, ứng dụng trên điện thoại thông minh. Trong khi đó, họ hầu như không nhận ra rằng các mảnh thông tin hoàn toàn có thể bị người khác thu thập để tái tạo lại không gian dữ liệu cá nhân về mình với ý đồ xấu.
Những thực tế nói trên đặt ra thách thức rất lớn cho pháp luật về bảo vệ dữ liệu cá nhân trước thời đại kỹ thuật số. Dĩ nhiên điều này không phải bây giờ mới diễn ra, mà đã dấy lên lo ngại ngay từ những năm đầu thế kỷ 21 - thời điểm Internet bắt đầu trở nên phổ biến. Tuy nhiên, dữ liệu cá nhân ngày càng tồn tại dưới nhiều loại hình hơn, không chỉ là thông tin nhân thân bên ngoài mà còn là các thông tin sinh trắc học như nhận diện khuôn mặt, mống mắt, dấu vân tay… Khi mà công nghệ hiện đại cho phép truy cập và khai thác dữ liệu với dung lượng và tốc độ đáng kinh ngạc, vấn đề bảo vệ dữ liệu cá nhân tiếp tục trở nên nóng hổi. Vì vậy, pháp luật, nhất là ở các quốc gia đang phát triển như Việt Nam, phải nhanh chóng thích ứng để có thể điều chỉnh hài hòa và hợp lý trong bối cảnh chuyển đổi số.
(*) Thạc sĩ Luật. Giảng viên Luật Đại học Quốc gia, Đại học Huế.