Dữ liệu mở và câu chuyện bảo vệ những dữ liệu không thể mở

(KTSG) - Mở kho dữ liệu của Chính phủ mang lại hàng loạt lợi ích cho cộng đồng nhưng cũng kéo theo những lo ngại rất lớn về vấn đề rò rỉ thông tin mang tính riêng tư của cá nhân.

Chính vì vậy, song hành với các chính sách để công khai dữ liệu, vấn đề bảo vệ quyền riêng tư về thông tin của công dân trở nên thiết yếu và quan trọng hơn bao giờ hết.

Hình dung những nguy cơ

Cần phải hình dung rằng việc triển khai dữ liệu mở tức là sẽ công khai rất nhiều bộ dữ liệu liên quan đến hầu hết các khía cạnh chính yếu của đời sống. Tất nhiên theo nguyên tắc bảo mật cũng như đảm bảo quyền riêng tư của cá nhân, hầu hết các quốc gia đều thống nhất ở định hướng rằng: dữ liệu mở sẽ không bao gồm thông tin cá nhân hoặc ít nhất sẽ không có những thông tin bị xem là “nhạy cảm”, “bí mật đời tư”.

Tuy nhiên, bất chấp những nỗ lực đảm bảo từ phía Chính phủ, vẫn không thể loại trừ được các trường hợp lợi dụng và liên kết thông tin từ các bộ dữ liệu mở khác nhau để xác định danh tính của cá nhân.

Ví dụ, Chính phủ công khai hai bộ dữ liệu mở: một bộ dữ liệu chứa thông tin về số lượng tội phạm hiện cư trú trong một khu vực nhất định, như tội phạm trộm cắp; bộ dữ liệu thứ hai cho biết số lượng người phạm tội theo từng loại tội phạm bao gồm tội trộm cắp, theo giới tính và độ tuổi. Nếu đứng riêng rẽ, rõ ràng hai bộ dữ liệu này không hỗ trợ cho việc xác định danh tính của một cá nhân cụ thể nào(1). Tuy nhiên, người truy cập bộ dữ liệu mở có thể kết hợp thông tin từ hai bộ dữ liệu để khoanh vùng được những đối tượng có liên quan và xác định được danh tính cụ thể của các cá nhân.

Một số người có thể lý luận rằng việc khoanh vùng thông tin tội phạm hay những người từng có tiền án là cần thiết để đề phòng rủi ro, vì lợi ích cộng đồng. Tuy nhiên, nếu đây không phải là bộ dữ liệu về tội phạm mà là dữ liệu thống kê số lượng người nhiễm bệnh HIV, số lượng người có thu nhập cao theo ngành nghề hay số lượng trẻ em trong các cấp học... thì việc rò rỉ thông tin lúc này còn liên quan đến vấn đề đạo đức cũng như sự an toàn của các cá nhân có liên quan.

Đặc biệt trong bối cảnh hiện nay, việc xác định danh tính từ vài thông tin về nơi sinh sống hay giới tính trở nên dễ dàng hơn bao giờ hết nhờ sự hỗ trợ từ các thông tin được các cá nhân đó công khai trên mạng xã hội.

Hàng rào kỹ thuật

Từ những nguy cơ hiện hữu nói trên, để bảo vệ quyền riêng tư về thông tin của người dân, trước khi triển khai dữ liệu mở, Chính phủ cần có sự quan tâm nhất định đến việc nghiên cứu các vấn đề kỹ thuật đặc thù liên quan đến việc bảo vệ dữ liệu. Cụ thể, tùy theo hình thức dữ liệu, các công cụ thích hợp cần được áp dụng cho mục đích loại bỏ tất cả thông tin nhận dạng cá nhân hoặc đảm bảo dữ liệu của cá nhân được bảo vệ ở mức cao nhất.

Theo khảo cứu kinh nghiệm tại một số nước, hiện nay, các công cụ kỹ thuật được áp dụng bao gồm: dữ liệu bút danh, dữ liệu ẩn danh và dữ liệu tổng hợp.

Theo đó, đối với kỹ thuật dữ liệu bút danh, tất cả thông tin nhận dạng của cá nhân sẽ được thay thế bằng một trường nhận dạng duy nhất và ngẫu nhiên. Nói đơn giản, kỹ thuật này sẽ giúp mã hóa thông tin của cá nhân, từ đó không thể xác định được danh tính của cá nhân trong khi các bộ xử lý dữ liệu vẫn có thể tiến hành phân tích thông tin của cá nhân dựa trên các trường mã hóa này.

Đối với kỹ thuật dữ liệu ẩn danh, điểm mấu chốt của kỹ thuật này là loại bỏ tất cả thông tin nhận dạng của cá nhân trong bộ dữ liệu, do đó không thể xảy ra vi phạm về quyền riêng tư.

Cuối cùng, đối với kỹ thuật dữ liệu tổng hợp, dữ liệu chi tiết được nhóm lại và phát hành dưới dạng thống kê hoặc siêu dữ liệu. Điều này giúp tăng cường quyền riêng tư của các cá nhân vì không thể xác định được danh tính cá nhân khi dữ liệu được tập hợp thành các nhóm với một mức số lượng cụ thể(2).

Chính phủ phải có tầm nhìn xác định việc đảm bảo quyền riêng tư về thông tin của cá nhân cũng là một trong những mục tiêu quan trọng cần phải đạt được khi triển khai dữ liệu mở.

Tuy nhiên, cần lưu ý rằng các công cụ kỹ thuật này cũng vẫn còn những hạn chế nhất định khi áp dụng. Ví dụ, đối với kỹ thuật dữ liệu ẩn danh, rủi ro thường gặp là việc nhận dạng lại dữ liệu khi tin tặc tìm thấy thông tin nhận dạng cá nhân ẩn trong bộ dữ liệu.

Đối với việc áp dụng kỹ thuật dữ liệu tổng hợp, vấn đề trọng tâm để bảo vệ sự an toàn dữ liệu cho cá nhân nhờ “sự pha loãng” số lượng thông tin khổng lồ. Tuy nhiên, nếu phạm vi dữ liệu chưa đạt được mức độ “loãng” phù hợp, việc suy ra danh tính cá nhân là có thể thực hiện được khi kết hợp các bộ dữ liệu tương tự các ví dụ đã nêu ở trên.

Bên cạnh đó, Chính phủ cần đặc biệt quan tâm đến các kỹ thuật và phương pháp để xác định những thông tin có tính chất nhạy cảm. Trước khi đưa định nghĩa thông tin nhạy cảm vào chính sách hay ban hành quy định pháp luật cụ thể, một quốc gia có thể xây dựng thang đo độ nhạy cảm của thông tin dựa trên các tiêu chuẩn và giá trị phổ quát tại quốc gia đó. Cụ thể là xác lập một quy trình bằng văn bản để chuẩn hóa các đánh giá độ nhạy cảm này thành một danh mục hoặc ban hành các biểu mẫu chính thức để lấy ý kiến từ các nhóm cộng đồng(3).

Chuẩn hóa hàng rào bảo vệ bằng công cụ chính sách, pháp lý

Đối với việc xây dựng chính sách chung bảo vệ thông tin cá nhân, qua khảo cứu kinh nghiệm từ các quốc gia, chúng tôi nhận thấy có thể bảo vệ quyền riêng tư về thông tin thông qua: (i) chính sách hạn chế truy cập dữ liệu; và (ii) chính sách hạn chế việc tái sử dụng dữ liệu.

Đối với chính sách hạn chế truy cập, việc hạn chế có thể từ Chính phủ đối với người dân hoặc hạn chế đối với quốc gia khác.

Cụ thể, việc hạn chế truy cập dữ liệu mở xuất phát từ quan điểm rằng có thể không phải lúc nào cũng cần thiết cho phép mọi người truy cập vào dữ liệu của Chính phủ.

Mặt khác, hạn chế với quốc gia khác tức là hạn chế các đối tượng ở bên ngoài đất nước truy cập vào các bộ dữ liệu mở quốc gia, ví dụ như trường hợp của Canada.

Tuy nhiên, tựu trung lại, các chính sách hạn chế ít nhiều có thể bị xem là đi ngược lại với bản chất và mục tiêu của dữ liệu mở.

Do đó, các quốc gia đang từ từ chuyển hướng sang cho phép truy cập và tiếp cận dữ liệu công khai, tuy nhiên phải đảm bảo tuân thủ các nguyên tắc, điều kiện nhất định liên quan đến quyền riêng tư về thông tin của cá nhân. Điều này dẫn đến hướng tiếp cận bảo vệ thứ hai, hạn chế việc tái sử dụng dữ liệu.

Theo đó, việc sử dụng lại dữ liệu phải đi đôi với cơ chế cấp phép mở và chịu sự điều chỉnh của khung pháp lý về bảo vệ thông tin cá nhân, dữ liệu cá nhân.

Điển hình như Hàn Quốc, vốn là một trong những nước tiên phong trong chiến lược dữ liệu mở nhưng đồng thời cũng có chính sách quyết liệt đối với vấn đề bảo vệ quyền riêng tư về thông tin của công dân ngay từ những bước đi đầu tiên. Cụ thể, việc ban hành luật chung về bảo vệ thông tin cá nhân đã được các nhà lập pháp đề xuất vào năm 2004. Sau bảy năm cân nhắc kỹ lưỡng, Đạo luật Bảo vệ thông tin cá nhân đã được ban hành vào tháng 3-2011, và Ủy ban Bảo vệ thông tin (PIPA) được thành lập vào ngày 30-9 cùng năm đó(4).

Có thể thấy bảo vệ quyền riêng tư về thông tin của cá nhân trong bối cảnh dữ liệu mở là một vấn đề không đơn giản, từ việc nghiên cứu áp dụng các phương pháp kỹ thuật đến việc xây dựng chính sách đồng bộ, nhất quán và hiệu quả. Điều này đòi hỏi Chính phủ phải có tầm nhìn xác định việc đảm bảo quyền riêng tư về thông tin của cá nhân cũng là một trong những mục tiêu quan trọng cần phải đạt được khi triển khai dữ liệu mở. Từ đó có sự đầu tư cần thiết để thiết kế các chính sách, ban hành, điều chỉnh các quy định pháp luật có liên quan hay thành lập một cơ quan chuyên trách để đảm nhận vai trò này.

------------

(*) Trường Đại học Kinh tế - Luật, ĐHQG TP.HCM

(**) Công Ty Luật Thắng & Các đồng nghiệp (Thang & Associates)

(1) The World of Open Data Concepts, Methods, Tools and Experiences, 2018
(2)https://data.europa.eu/sites/default/files/open_data_and_privacy_v1_final_clean.pdf?fbclid=IwAR2rWO5gGgzvKqFw0j87MoJmjZOsRy4k5kTEEPvHP3MFwOa_Q8p3D4FwruA
(3) https://citizens-guide-open-data.github.io/guide/4-od-and-privacy?fbclid=IwAR0r0DVpN7UNzFVbOY9XoP38qmHG1QUWvGznPnAWNW0FKpDJd3nX3ctQM9M
(4) https://www.pipc.go.kr/cmt/english/introduction/background.do

Dữ liệu mở và câu chuyện bảo vệ những dữ liệu không thể mở

BÌNH LUẬN Hủy trả lời

Tin liên quan

95% lao động trở lại làm sau Tết, TPHCM cần gần 60.000 vị trí làm việc

Năm tuyến cao tốc Bắc- Nam phía Đông ‘chốt’ mức thu, chi tiết ra sao?

Dịp Tết Bính Ngọ, vận tải TPHCM phục vụ hơn 14 triệu lượt hành khách

TPHCM: Hải quân, cảnh sát biển bầu cử sớm, mang lá phiếu ra đầu sóng

Giá xăng vượt 20.000 đồng/lít

EC chuẩn bị thanh tra lần thứ 5 việc gỡ ‘thẻ vàng’ IUU của thủy sản Việt Nam.

Có thể bạn quan tâm

95% lao động trở lại làm sau Tết, TPHCM cần gần 60.000 vị trí làm việc

Năm tuyến cao tốc Bắc- Nam phía Đông ‘chốt’ mức thu, chi tiết ra sao?

Dịp Tết Bính Ngọ, vận tải TPHCM phục vụ hơn 14 triệu lượt hành khách

TPHCM: Hải quân, cảnh sát biển bầu cử sớm, mang lá phiếu ra đầu sóng

Giá xăng vượt 20.000 đồng/lít

EC chuẩn bị thanh tra lần thứ 5 việc gỡ ‘thẻ vàng’ IUU của thủy sản Việt Nam.

Tàu cao tốc Vũng Tàu – Côn Đảo hoạt động trở lại

Người Thái ra giá gần trăm tỉ đồng mua Sá Xị Chương Dương

Mỹ tính nâng thuế nhập khẩu bổ sung lên 15% với một số nước

Xuất khẩu gạo của Thái Lan dự báo rơi xuống mức thấp nhất 5 năm

Khách Việt dẫn đầu châu Á về mức độ sẵn sàng sử dụng AI khi du lịch

Chỉ doanh nghiệp 100% vốn nhà nước được nhập khẩu thuốc lá điếu, xì gà

Tin mới

Phòng vé phim Tết đổi thế: Phim nội áp đảo, thị trường tăng trưởng đa điểm

95% lao động trở lại làm sau Tết, TPHCM cần gần 60.000 vị trí làm việc

Năm tuyến cao tốc Bắc- Nam phía Đông ‘chốt’ mức thu, chi tiết ra sao?

Dịp Tết Bính Ngọ, vận tải TPHCM phục vụ hơn 14 triệu lượt hành khách

TPHCM: Hải quân, cảnh sát biển bầu cử sớm, mang lá phiếu ra đầu sóng