Thứ Tư, 24/04/2024
32 C
Ho Chi Minh City

Làm dữ liệu về… dịch Covid-19

Kinh tế Sài Gòn Online

Kinh tế Sài Gòn Online

Làm dữ liệu về… dịch Covid-19

Phan Nhật

(KTSG) – Trí tuệ nhân tạo (AI) và dữ liệu lớn (big data) là những khái niệm mới nhưng không quá mới mẻ đối với xã hội Việt Nam hiện thời. Nhưng rõ ràng, để có big data và để làm kinh tế dữ liệu thì trước hết cần phải làm… dữ liệu. Nhưng có vẻ như Việt Nam hiện tại vẫn chưa thay đổi cách ứng xử với dữ liệu cũng như cách làm dữ liệu mà dữ liệu về Covid-19 là ví dụ.

Bỏ lỡ cơ hội

Nhiều tháng trước, khi hàng ngày phải mở máy để theo dõi số ca nhiễm Sars-CoV-2 ở Nhật Bản và Việt Nam, tôi đã ngồi thắc mắc, tại sao nền khoa học dữ liệu của nước nhà vẫn chưa được chú ý để đầu tư và… kinh doanh.

Ở Nhật Bản, sau vài ca đầu tiên xuất hiện, dân làm dữ liệu chuyên nghiệp đã vào cuộc. Nhờ đó, tôi có thể lên tờ The Japan Times để theo dõi và cập nhật các thông số đều đặn mỗi ngày. Ở thời điểm hiện tại, việc cập nhật này vẫn được miễn phí.

Dù vậy, dữ liệu được tập hợp rất khoa học, qua sự phân tách theo nhiều tiêu chí khác nhau: ngày phát hiện, ngày xác định nhiễm bệnh, khu vực, độ tuổi, nguồn lây, tình trạng bệnh (nặng hoặc nhẹ), điều trị tại bệnh viện hay theo dõi tại nhà, trường hợp tử vong… Đó là các thông tin được xác định từng mã số bệnh nhân.

Các tổ chức, đơn vị tham gia dự án dữ liệu này tổng hợp và cập nhật thông tin ca bệnh từ nhiều nguồn khác nhau, thậm chí còn đi trước cả thời điểm Bộ Y tế, lao động và phúc lợi Nhật Bản công bố chính thức. Đương nhiên, mã số ca bệnh sẽ được đơn vị làm dữ liệu cập nhật bổ sung sau khi có cơ quan này xác định.

Ở Việt Nam, trong giai đoạn đầu của đại dịch, số liệu các trang phản ánh chủ yếu chỉ là số ca bệnh mới và số ca bệnh hoàn thành điều trị hay tử vong trên tổng số ca bệnh. Các thông số cơ bản này chủ yếu được dẫn lại từ nguồn của Bộ Y tế. Một số đơn vị truyền thông cũng đã tiến hành cập nhật thêm một số thông tin khác khi phát sinh các ca nhiễm mới, nhưng nhiều thông tin được cập nhật lại không có ý nghĩa thống kê.

Để có thể… bán được, dữ liệu phải là dữ liệu… tinh. Có nghĩa, nó phải được sàng lọc, thậm chí là… mã hóa để có thể làm mờ, hay xóa hết các dấu vết cá nhân.

Đây cũng là cách để những người làm dữ liệu tránh được những cáo buộc về vi phạm quyền riêng tư sau này.

Khi đợt dịch thứ tư bùng phát tại Việt Nam từ cuối tháng 4 năm nay, thống kê của Bộ Y tế được xử lý sâu hơn. Cụ thể, ngoài số ca nhiễm bệnh được công bố, người tìm dữ liệu đã có thể tiếp cận biểu đồ tăng – giảm ca nhiễm mỗi ngày cùng với biểu đồ phân bổ số ca bệnh ở mỗi địa phương.

Các biểu đồ tương tự như vậy, tôi đã có thể tiếp cận khi tìm dữ liệu về dịch Covid-19 ở Nhật Bản từ năm ngoái. Tuy nhiên, ngoài vài cải tiến đó trong thống kê thông số, việc làm dữ liệu về dịch Covid-19 ở Việt Nam vẫn còn nhiều giới hạn.

Thực tế, khó khăn trong tiếp cận nguồn dữ liệu (thậm chí là không thể) là nỗi khổ “mãn tính” của không ít làm người nghiên cứu ở nước ta. Nếu như nguồn dữ liệu bên ngoài có thể tìm kiếm từ các nhà cung cấp chuyên nghiệp thì những ai có nhu cầu thường phải… tự làm dữ liệu về các vấn đề, chủ đề ở trong nước.

Trở lại câu chuyện dữ liệu về dịch Covid-19, nếu cần thông số gì có liên quan, người dùng có thể vào kho dữ liệu ở Nhật Bản như vừa nói để đặt bộ lọc (filter), sắp xếp (sort) rồi trích xuất. Nhưng ở Việt Nam, rõ ràng điều đó là không thể, vì ngoài bộ dữ liệu cơ bản được Bộ Y tế cáo bạch, hiện tại trên thực tế chưa có đơn vị nào khác làm thống kê sâu hơn. Người dùng vì vậy phải tự lao vào tìm kiếm, thu nhặt. Nhưng hãy tưởng tượng, sẽ khó khăn đến dường nào nếu như nhu cầu này chỉ xuất hiện sau vài năm, hoặc nhiều năm nữa, khi mà tất cả những thông tin về dịch Covid-19 đã bắt đầu… lùi vào dĩ vãng.

Quyền riêng tư và dữ liệu… tinh

Ở Việt Nam, khi một ca bệnh được phát hiện, đặc biệt là khi trở thành ca F0 thì gần như đầy đủ các thông tin về cá nhân đó được… lan truyền.

Chính thực tế này đã có thể là lý do để một vài bệnh nhân ngại ngùng, thậm chí là không trung thực cung cấp thông tin “truy vết”. Một số trường hợp xảy ra đã gây ra hệ lụy không nhỏ.

Cho nên Việt Nam đang rất cần những nhà làm dữ liệu chuyên nghiệp. Một thị trường còn mới mẻ như vậy chắc chắn là cơ hội tốt cho những doanh nghiệp tiên phong, đi từ những bước đi đầu để có thể tích lũy big data và… kinh doanh sau này.

Đương nhiên, để có thể… bán được, dữ liệu phải là dữ liệu… tinh. Có nghĩa, nó phải được sàng lọc, thậm chí là… mã hóa để có thể làm mờ, hay xóa hết các dấu vết cá nhân. Làm như vậy cũng là cách để những người làm dữ liệu tránh được những cáo buộc về vi phạm quyền riêng tư sau này.

Câu chuyện về thông tin người nhiễm virus Sars-CoV-2 thời gian qua cũng chính là một minh chứng sống động. Ở Nhật Bản, các cảnh bảo về khu vực nguy hiểm nơi người nhiễm bệnh đã từng ngang qua, lưu lại… cũng có. Nhưng trong tất cả các thông báo, thông tin đó, gần như người ta khó có thể biết được đích xác cá nhân đó là ai.

Nhưng ngược lại, ở Việt Nam, khi một ca bệnh được phát hiện, đặc biệt là khi trở thành ca F0 thì gần như đầy đủ các thông tin về cá nhân đó được… lan truyền. Không phải tất cả, nhưng một phần cũng xuất phát từ việc cung cấp thông tin vùng dịch tễ thiếu chắt lọc đã có thể hé lộ các thông tin cá nhân của người bệnh.

Thực tế, điều này cũng đã gây tranh cãi nhiều, nhưng gần như tất cả các cuộc thảo luận đều được… cho qua với lập luận tất cả hy sinh cho mục tiêu chống dịch. Tuy nhiên, ở một khía cạnh nào đó, chính thực tế này đã có thể là lý do để một vài bệnh nhân ngại ngùng, thậm chí là không trung thực cung cấp thông tin “truy vết”. Một số trường hợp xảy ra đã gây ra hệ lụy không nhỏ.

Dưới góc độ pháp lý, việc chia sẻ những thông tin nhạy cảm của người bệnh là không được phép. Hãy lấy tình huống một bệnh nhân HIV/AIDS để đối chứng. Là bệnh nhân mắc bệnh truyền nhiễm, họ có quyền được giữ bí mật thông tin. Bệnh nhân nhiễm Sars-CoV-2 đương nhiên cũng có quyền này.

Đó là lý do vì sao, Bộ Thông tin và Truyền thông, và cả Bộ Y tế, đã yêu cầu và có những điều chỉnh phù hợp trong việc cung cấp thông tin về các ca nhiễm bệnh. Kết quả, nội dung thông tin hiện nay chỉ tập trung ghi nhận vùng dịch tễ để lưu ý và nhắc nhở cộng đồng khai báo. Thông tin về các vùng dịch tễ cũng không còn phân tích vùng dịch tễ của… bệnh nhân nào, nhằm làm mất dấu truy vết. Rõ ràng, “vùng dịch tễ” là thông tin quan trọng, còn khu vực đó liên quan đến… bệnh nhân nào là công việc của các cơ quan y tế.

Đây chính là thực tế minh định rõ nét rằng làm thế nào để xóa vết cá nhân để bộ dữ liệu cuối cùng chỉ còn lại dữ liệu… tinh.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin liên quan

Có thể bạn quan tâm

Tin mới