Thứ hai, 3/03/2025
27 C
Ho Chi Minh City

Công ty AI chạy đua ‘chưng cất’ kiến thức để sản xuất mô hình giá rẻ

Lê Linh

Kinh tế Sài Gòn Online

Kinh tế Sài Gòn Online

(KTSG Online) - Các công ty trí tuệ nhân tạo (AI) hàng đầu gồm OpenAI, Microsoft và Meta đang chạy đua sử dụng một kỹ thuật gọi là “chưng cất” để chuyển giao kiến thức từ một mô hình ngôn ngữ lớn và phức tạp sang một mô hình tinh gọn với chi phí rẻ, có thể phổ cập nhanh chóng đến người tiêu dùng và doanh nghiệp.

OpenAI nghi ngờ DeepSeek đã chắt lọc kiến thức từ các LLM của OpenAI để đào tạo mô hình cạnh tranh, một động thái vi phạm các điều khoản dịch vụ của công ty này. Ảnh minh họa: linkedin

Kỹ thuật chưng cất (distillation) thu hút sự chú ý rộng rãi sau khi DeepSeek của Trung Quốc được cho là đã sử dụng nó để xây dựng các mô hình AI mạnh mẽ và hiệu quả dựa trên các hệ thống AI nguồn mở của Meta (công ty mẹ của Facebook) và Alibaba cũng như dữ liệu truy xuất từ nền tảng giao diện lập trình ứng dụng (API) của OpenAI.

Nền tảng API của OpenAI là một hệ thống dựa trên đám mây, được thiết kế để cung cấp cho nhà phát triển ứng dụng quyền truy cập vào các mô hình AI tiên tiến của OpenAI, chẳng hạn như GPT-3, GPT-4, DALL-E và Whisper.

Thông qua kỹ thuật chưng cất, các công ty AI sẽ sử dụng một mô hình ngôn ngữ lớn (LLM), được gọi là mô hình “giáo viên” (teacher model) để cung cấp dữ liệu đào tạo mô hình “học sinh” (student model) nhỏ hơn. Điều này giúp các công ty nhanh chóng chuyển giao kiến ​​thức và dự đoán từ một LLM hơn sang mô hình nhỏ hơn.

Dù kỹ thuật chưng cất đã được sử dụng rộng rãi trong nhiều năm, nhưng những tiến bộ gần đây khiến giới chuyên gia trong ngành tin rằng kỹ thuật này ngày càng mang lại nhiều lợi ích cho các công ty khởi nghiệp đang cách tiết kiệm chi phí để xây dựng các ứng dụng dựa trên công nghệ AI.

“Kỹ thuật chưng cất thực sự là một điều kỳ diệu. Về cơ bản, đây là quá trình sử dụng một mô hình tiên tiến và thông minh nhất để đào tạo một mô hình nhỏ hơn, có khả năng thực hiện những nhiệm vụ cụ thể với chi phí cực rẻ và tốc độ cực nhanh”, Olivier Godement, giám đốc sản phẩm của nền tảng giao dịch lập trình ứng dụng (API) của OpenAI nói.

Các mô hình ngôn ngữ lớn như GPT-4 của OpenAI, Gemini của Google và Llama của Meta đòi hỏi lượng dữ liệu và sức mạnh tính toán khổng lồ để phát triển và duy trì. Chi phí phát triển các mô hình này có thể lên tới hàng trăm triệu đô la.

Nhờ kỹ thuật chưng cất, các nhà phát triển ứng dụng và doanh nghiệp có thể tiếp cận năng lực của mô hình này với chi phí thấp. Điều này cho phép nhà phát triển ứng dụng chạy mô hình AI nhanh chóng trên các thiết bị như máy tính xách tay và điện thoại thông minh.

Nhà phát triển ứng dụng có thể sử dụng nền tảng API của OpenAI để chắt lọc và học hỏi từ các mô hình ngôn ngữ lớn đang làm nền tảng cho các sản phẩm như ChatGPT. Microsoft, nhà đầu tư lớn nhất của OpenAI, đã sử dụng mô hình GPT-4 của OpenAI để tinh chỉnh các mô hình Phi nhỏ hơn của tập đoàn này như một phần trong mối quan hệ đối tác giữa hai bên.

Tuy nhiên, OpenAI nghi ngờ DeepSeek đã chắt lọc kiến thức từ các LLM của OpenAI để đào tạo mô hình cạnh tranh, một động thái vi phạm các điều khoản dịch vụ của công ty này.

Kỹ thuật chưng cất có thể được sử dụng để tạo ra các mô hình nhỏ, hiệu suất cao, nhưng các chuyên gia lưu ý, chúng cũng có những điểm hạn chế.

“Kỹ thuật chưng cất là một sự đánh đổi đáng chú ý. Nếu bạn thu nhỏ các mô hình, năng lực của chúng chắc chắn sẽ giảm đi”, Ahmed Awadallah giám đốc nghiên cứu của Microsoft Research bình luận.

Ông giải thích thêm, một mô hình tinh gọn có thể được thiết kế để tóm tắt email rất tốt, nhưng thực sự không tốt ở bất kỳ nhiệm vụ nào khác.

David Cox, Phó chủ tịch phụ trách mô hình AI của IBM Research cho biết, hầu hết doanh nghiệp không cần một mô hình khổng lồ để vận hành sản phẩm. Những mô hình tinh gọn đủ mạnh cho các mục đích như chatbot chăm sóc khách hàng hoặc chạy trên các thiết bị nhỏ như điện thoại di động.

Điều đó đặt ra thách thức cho nhiều mô hình tính phí của các công ty AI hàng đầu. Ngay cả khi nhà phát triển ứng dụng sử dụng các mô hình chắt lọc từ các công ty như OpenAI, chi phí cũng rẻ hơn rất nhiều

OpenAI thường tính phí thấp hơn đối với nhà phát triển sử dụng mô hình được chưng cất từ các mô hình AI tiên tiên tiến nhất của công ty này vì chúng đòi hỏi ít khối lượng tính toán hơn.

Tuy nhiên, Godement của OpenAI lập luận, các mô hình ngôn ngữ lớn vẫn cần thiết cho các nhiệm vụ quan trọng, đòi hỏi trí thông minh cao. Ông tin rằng, doanh nghiệp sẵn sàng trả nhiều tiền hơn để tiếp cận mô hình có độ chính xác và độ tin cậy cao.

Ông nói thêm, các LLM cũng cũng cần thiết để khám phá các năng lực mới, từ đó, có thể chắt lọc sang mô hình nhỏ hơn.

Tuy nhiên, OpenAI vẫn muốn ngăn chặn việc các LLM của công ty bị chắt lọc kiến thức để để đào tạo đối thủ cạnh tranh. Nền tảng API của OpenAI có các nhóm theo dõi mức sử dụng và có thể loại bỏ quyền truy cập của những người dùng bị nghi ngờ đang tạo ra lượng lớn dữ liệu để truy xuất và đào tạo mô hình cạnh tranh.

Tiến bộ của kỹ thuật chưng cất được xem là một thắng lợi cho những người ủng hộ mô hình AI nguồn mở, cung cấp công nghệ AI miễn phí cho các nhà phát triển ứng dụng, giúp giảm sự phụ thuộc vào các mô hình độc quyền khổng lồ.

DeepSeek đã công khai các mô hình V3 và R1, cho phép nhà phát triển trên toàn cầu tải xuống, sử dụng, chỉnh sửa và phát triển thêm mà không mất phí.

“Chúng tôi sẽ sử dụng kỹ thuật chưng cất và đưa kỹ thuật này vào sản phẩm của chúng tôi ngay lập tức. Bạn sẽ được hưởng lợi từ sự tiến bộ công nghệ của mọi người miễn là những quy trình công nghệ đó được mở”, Yann LeCun, nhà khoa học AI của Meta cho biết.

Các nhà sản xuất mô hình có thể chi thêm hàng tỉ đô la để nâng cao năng lực của các hệ thống AI nhưng sẽ đối mặt rủi ro bị các đối thủ cạnh tranh nhanh chóng bắt kịp như trường hợp của DeepSeek. Điều này đặt ra câu hỏi về lợi thế của người đi đầu trong việc xây dựng các LLM khi năng lực của chúng có thể bị đối thủ chưng cất chỉ trong vài tháng.

“Bạn thực sự có thể chi rất nhiều tiền để phát triển AI và rồi phần còn lại của lĩnh vực này sẽ bám sát bạn. Vì vậy, đây là một bối cảnh kinh doanh thú vị nhưng đầy mưu mẹo”, Cox của IBM Research bình luận.

Theo Financial Times

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin liên quan

Có thể bạn quan tâm

Tin mới