Thứ bảy, 1/03/2025
27 C
Ho Chi Minh City

Thấy gì từ DeepSeek?

TS. Bùi Đức Giang (*) - Vũ Hải Nam (**) - Nguyễn Minh Chính (***)

Kinh tế Sài Gòn Online

Kinh tế Sài Gòn Online

(KTSG) - Ngày 20-1-2025, công ty khởi nghiệp về trí tuệ nhân tạo (Artificial Intelligence - AI) DeepSeek của Trung Quốc đã cho ra mắt mô hình AI mới mang tên R1 và ngay lập tức làm chao đảo cả thế giới và thị trường chứng khoán công nghệ. Câu chuyện của DeepSeek không chỉ dừng lại trong lĩnh vực công nghệ mà còn gợi mở nhiều điều liên quan đến quản lý kinh doanh, sử dụng tài sản trí tuệ và chính sách.

Khác biệt công nghệ

Điểm khác biệt đầu tiên trong cách DeepSeek tiếp cận công nghệ phải kể đến phương pháp công ty này áp dụng với các mô hình ngôn ngữ lớn (Large Language Models - LLMs). Có thể hiểu LLM là một loại AI được huấn luyện trên khối lượng dữ liệu văn bản khổng lồ, giúp nó có thể hiểu, tạo và xử lý ngôn ngữ tự nhiên như con người. Chính phủ Mỹ từ vài năm nay đã áp dụng các quy định hạn chế nguồn cung cấp chip AI hiệu suất cao cho các công ty Trung Quốc. Vì vậy, hầu hết các LLM của Trung Quốc đều dựa vào việc huấn luyện phân tán trên nhiều GPU (bộ xử lý chuyên dụng giúp tăng tốc các tác vụ tính toán phức tạp trong AI) yếu hơn. Tuy nhiên, nhờ tối ưu kiến trúc, chúng vẫn đạt được hiệu suất cạnh tranh, dù chưa thể sánh ngang với công nghệ tiên phong.

DeepSeek ứng dụng kiến trúc Multi - Head Latent Attention (MLA) - cơ chế phân bổ trọng số linh hoạt giúp tối ưu bộ nhớ và Mixture of Experts (MOE) - mô hình kết hợp nhiều chuyên gia xử lý chuyên biệt, từ đó cải thiện hiệu suất tính toán. Vì thế DeepSeek giảm được mức sử dụng bộ nhớ và cho phép tận dụng tài nguyên một cách hiệu quả hơn. Sử dụng phương pháp đào tạo trên các GPU hiệu suất thấp thay vì các cụm Nvidia tiên tiến - điều đòi hỏi nguồn vốn đầu tư khổng lồ - cũng giúp DeepSeek giảm thiểu được chi phí xây dựng và vận hành.

Ngoài ra, việc áp dụng các mã nguồn mở cũng đóng vai trò quan trọng trong sự phát triển các mô hình LLM của DeepSeek. Mô hình của DeepSeek được phát hành theo giấy phép sử dụng mã nguồn mở (open - source license) của Học viện Công nghệ Massachusetts - MIT (Mỹ).

Lợi thế của kiến trúc hiệu quả và cách tiếp cận mã nguồn mở thể hiện rõ nhất khi so sánh chi phí huấn luyện mô hình: DeepSeek công bố chỉ tốn khoảng 5,6 triệu đô la Mỹ cho mô hình R1, trong khi các công ty Mỹ như OpenAI và Alphabet được cho là phải bỏ ra từ 40-200 triệu đô la để xây dựng các mô hình LLM.

Các chỉ số đánh giá mức độ hiệu quả của LLM còn cho thấy DeepSeek có khả năng tư duy và đưa ra đáp số nhanh, có độ chính xác cao trong lập trình. Ngoài ra, mô hình này còn thể hiện sự vượt trội ở khả năng giải toán và đưa ra câu trả lời cho câu hỏi liên quan đến Trung Quốc (ngoại trừ một số câu hỏi nhạy cảm về mặt chính trị) được cho là chính xác hơn nhiều mô hình tiên phong như GPT-4o của OpenAI hay Claude-3.5 của Anthropic.

Sáng tạo đột phá

Từ những khác biệt trong cách tiếp cận công nghệ và các mô hình LLM, không khó hiểu khi DeepSeek đã gây bất ngờ cho các công ty AI tên tuổi của Mỹ. Tuy nhiên, nếu quan sát dưới góc nhìn của lý thuyết quản trị, cụ thể là lý thuyết “đổi mới đột phá” (disruptive innovation) được khởi xướng bởi Giáo sư Clayton Christensen của trường Kinh doanh Harvard vào năm 1995, sự xuất hiện của DeepSeek là có thể dự báo được.

Có thể thấy AI sẽ không dừng lại ở đây và có thể năm 2025 sẽ chứng kiến nhiều “khoảnh khắc DeepSeek” hơn nữa, báo hiệu một sự chuyển dịch mạnh mẽ trong nền kinh tế và công nghệ toàn cầu.

Theo lý thuyết này, đổi mới đột phá là quá trình một công ty nhỏ với nguồn lực ít hơn từng bước thành công trong việc thách thức các công ty lớn đã thành danh. Cụ thể, khi những công ty lớn tập trung nguồn lực để cải thiện sản phẩm và dịch vụ của mình nhằm phục vụ cho những phân khúc khách hàng khó tính nhất (thường là khách hàng mang lại lợi nhuận cao nhất), họ sẽ bỏ qua nhu cầu của những phân khúc khách hàng khác.

Khi đó, những công ty nhỏ mới thành lập, sẽ tạo được “đột phá” khi nhắm vào việc phục vụ những phân khúc khách hàng bị bỏ qua đó. Các công ty này cung cấp các giải pháp thay thế với chi phí thấp, từng bước cải thiện chất lượng và cuối cùng chiếm lĩnh thị phần của các công ty kia.

Đây có thể là hướng đi mà DeepSeek đã lựa chọn. Vị thế của DeepSeek đã phần nào được khẳng định khi công ty này có thể cạnh tranh với các tập đoàn công nghệ hàng đầu tại Mỹ, bất chấp mức chi phí vận hành và đầu tư ban đầu thấp hơn rất nhiều.

Cũng theo lý thuyết này thì mô hình AI của DeepSeek vẫn chưa phải là cuối cùng. Có thể trong khoảng thời gian ngắn như vài tháng tới, sẽ xuất hiện những đối thủ mới cạnh tranh trực tiếp với DeepSeek hay sẽ xuất hiện các công ty AI sáng tạo trên mô hình ngôn ngữ nhỏ (Small Language Models - SLM) cạnh tranh trực tiếp với các công ty khai thác mô hình LLM. Và đây cũng không phải là điều bất ngờ trong sự phát triển mạnh mẽ của các công nghệ AI hiện nay.

Quản lý tài sản trí tuệ theo mô hình sáng tạo mở

Để phát triển các mô hình LLM đủ sức thách thức các ông lớn AI trên thế giới, DeepSeek đã vận dụng mô hình “sáng tạo mở” (open innovation). Sáng tạo mở là lý thuyết do Giáo sư Henry Chesbrough, Đại học California, Berkeley đề xuất lần đầu tiên vào năm 2003. Theo đó, khi các công ty tìm cách phát triển công nghệ, họ có thể và nên sử dụng cả ý tưởng nội bộ và ý tưởng bên ngoài.

Liang Wenfeng (Lương Văn Phong), ông chủ của DeepSeek, là người sáng lập và điều hành quỹ đầu cơ High-Flyer. Tại đây, ông gây dựng tài sản bằng cách sử dụng AI và thuật toán để nhận diện các mô hình có thể tác động đến giá cổ phiếu. Đội ngũ của ông từ lâu đã thành thạo trong việc sử dụng chip Nvidia để kiếm lợi nhuận từ giao dịch chứng khoán. Năm 2023, khi thành lập DeepSeek, vị thuyền trưởng này đưa những người giỏi nhất từ quỹ đầu cơ - là những người thực sự hiểu rõ cách các con chip hoạt động, sang công ty mới. Khi Mỹ cấm Nvidia xuất khẩu các con chip mạnh nhất sang Trung Quốc, DeepSeek buộc phải tìm cách sáng tạo để tối ưu hóa sức mạnh tính toán của số lượng chip nội địa có hạn.

Đây là vấn đề mà đội ngũ của DeepSeek vốn đã biết cách giải quyết: họ đã có thể khai thác tối đa tiềm năng của những GPU kém tiên tiến hơn. Ông chủ DeepSeek định hình DeepSeek là một công ty thuần nội địa, khi tuyển dụng nhân sự từ những trường đại học hàng đầu Trung Quốc thay vì các chuyên gia từ Mỹ hay châu Âu. Chính sự kết hợp bài bản giữa ý tưởng của đội ngũ nhân sự bản địa cùng với nguồn lực bên ngoài như chip Nvidia và mã nguồn mở của MIT đã góp phần tạo nên thành công của DeepSeek.

Ở hướng ngược lại, DeepSeek cũng tham gia gây dựng hệ sinh thái mã nguồn mở. Giống như Alibaba, DeepSeek đi theo hướng của Meta - công ty mẹ của Facebook: cung cấp ứng dụng theo phương pháp cấp phép mã nguồn mở. Chính sách này cũng thúc đẩy yếu tố minh bạch thông tin: khi ra mắt mô hình mới, DeepSeek đã công bố kèm theo một tài liệu giải thích chi tiết cách thức xây dựng một LLM với ngân sách hạn chế, có thể tự động học hỏi và cải thiện mà không cần sự giám sát của con người.

Góc nhìn chính sách

Từ lâu, Trung Quốc đã theo đuổi chiến lược đổi mới sáng tạo dựa cả trên việc tiếp thu nguồn công nghệ nước ngoài lẫn sáng tạo bản địa. Phát huy sức mạnh nội lực được cho là chính sách ưu tiên trong bối cảnh Mỹ liên tiếp có các động thái hạn chế nguồn cung thiết bị bán dẫn cho Trung Quốc và được cho là với mục đích kìm hãm năng lực công nghệ của Trung Quốc nói chung và trong lĩnh vực AI nói riêng.

Tuy nhiên, việc Mỹ siết chặt các hạn chế đối với công nghệ AI và thiết bị bán dẫn dường như đã tạo động lực để các doanh nghiệp Trung Quốc sáng tạo hơn. Các công ty Trung Quốc tìm cách tối ưu hóa thuật toán thay vì phụ thuộc vào phần cứng. DeepSeek đã huấn luyện thành công mô hình chỉ với số lượng chip Nvidia chuyên dụng thấp hơn rất nhiều so với số lượng chip tối tân mà các công ty Mỹ cần để huấn luyện các mô hình của mình.

Có vẻ DeepSeek đang góp phần thể hiện sức mạnh nội tại của các công ty công nghệ Trung Quốc và nỗ lực trở thành niềm tự hào về mặt công nghệ của Trung Quốc trên phạm vi toàn cầu - với số lượng còn khiêm tốn mà thành công nhất là Huawei.

DeepSeek, dù xuất hiện như một hiện tượng, vẫn không phải là bước ngoặt thay đổi tất cả. Đây chỉ là dấu hiệu cho thấy AI đang tiến đến giai đoạn mới - từ nhận diện sang tư duy và giải quyết vấn đề. Sự cạnh tranh giữa hướng tiếp cận mã nguồn mở (như DeepSeek đang triển khai) và mô hình độc quyền (mà một số tập đoàn AI của Mỹ với sự bảo trợ của các nhà đầu tư đang áp dụng) sẽ tiếp tục thúc đẩy sáng tạo, giảm chi phí thiết kế và do đó hứa hẹn sẽ mở ra nhiều ứng dụng thực tiễn hơn. Có thể thấy AI sẽ không dừng lại ở đây và có thể năm 2025 sẽ chứng kiến nhiều “khoảnh khắc DeepSeek” hơn nữa, báo hiệu một sự chuyển dịch mạnh mẽ trong nền kinh tế và công nghệ toàn cầu.

(*) Trường Quản trị và Kinh doanh, Đại học Quốc gia Hà Nội
(**) Edtech Agency
(***) VNPT Technology

1 BÌNH LUẬN

  1. DeepSeek nó rẻ thôi, về cơ bản chỉ hoạt động ở quy mô lớn nó mới có lợi. Độ chính xác và sáng tạo thì chatgpt và gemini vẫn ở đẳng cấp vượt trội. Dù sao deepseek cũng chỉ là mô hình chưng cất của chatgpt. Mình sống bằng AI kiếm tiền trong 2 năm nay rồi, thử deepseek đến bản hiện tại vẫn chưa ăn đc chatgpt và gemini.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin liên quan

Có thể bạn quan tâm

Tin mới