ChatGPT giờ đã biết nhìn, biết nghe và biết nói

(KTSG) - Nhân vật chính trong phim khoa học viễn tưởng Her có thể trò chuyện với chiếc máy tính y như đang nói với người bạn thân thiết nhất. Câu chuyện giả tưởng này nay đã biến thành sự thật, sau khi ChatGPT nâng cấp phiên bản mới nhất cài trên điện thoại giúp người dùng trò chuyện bình thường với con chatbot thông minh này chứ không cần phải gõ bàn phím như trước nữa.

Những người trải nghiệm phiên bản mới này cho biết ChatGPT không chỉ giống Siri trên iPhone hay Alexa trên loa thông minh của Amazon, nó trò chuyện tự nhiên hơn nhiều, trả lời hầu như các câu hỏi và nghe qua khó lòng phân biệt đâu là người, đâu là máy. Ngoài ra ChatGPT còn được nâng cấp để hiểu nội dung các tấm ảnh tải lên cho nó xem, như đưa cho nó tấm hình chụp trang nhất một tờ báo, nó sẽ miêu tả cặn kẽ những gì tin gì đăng trên trang đó. Nói cách khác, ChatGPT giờ đã biết nhìn, biết nghe và biết nói.

Không giống Siri hay Alexa, để gọi ChatGPT không cần dùng một từ đánh thức nào như kiểu “Hey, Siri” hay “OK, Google”. Trên menu cài đặt của ứng dụng, chỉ cần kích hoạt “Voice conversions” và nhấn vào biểu tượng tai nghe ở góc trên bên phải là máy bắt đầu nghe rồi trò chuyện với bạn. Có một nút để ngưng các câu trả lời dài dòng. Nên nhớ ChatGPT biết nói chỉ có trên phiên bản ChatGPT Plus, tức phiên bản phải trả 20 đô la mỗi tháng.

Phóng viên tờ Wall Street Journal thử yêu cầu nó giải thích trò chơi Pokémon là gì như thể đang trò chuyện với đứa bé 6 tuổi, nó kiên nhẫn giải thích bằng các từ dễ hiểu, câu ngắn gọn như thể một người lớn đang bày vẽ cho một em bé. Phóng viên sau đó yêu cầu nó giả vờ làm người bạn thân để trò chuyện trong vòng 5 phút, thế là hai người nói về đủ thứ chuyện, như vui buồn ở chỗ làm, các món ăn dự tính sẽ nấu tối nay…

Hiện nay ứng dụng vẫn còn nhiều vấn đề như thời gian hồi đáp còn rất chậm, đôi lúc kết nối bị ngắt nửa chừng, có lúc cuộc trò chuyện đột ngột kết thúc. OpenAI cho biết sẽ cải thiện dần ứng dụng trong thời gian tới để khắc phục các nhược điểm này. Phóng viên tờ New York Times yêu cầu nó đánh vần chữ “gym” (phòng tập thể hình) thì nó nhầm sang tên người “Jim”. Tuy nhiên khi nhắc nó, “Không phải. Chữ “gym” kia kìa” thì nó đánh vần đúng. Hiện nay người dùng có thể chọn 1 trong 5 giọng nói có sẵn, có cả giọng nam và giọng nữ.

Trong khi Siri hay Alexa chỉ có thể thực hiện một số lệnh như “Alexa, bật đèn”, “Hey Siri, chơi bản Hello của Adele” hay trả lời một số câu hỏi đơn giản đã đưa vào cơ sở dữ liệu của chúng, ChatGPT hoạt động như một mô hình ngôn ngữ lớn nên sẵn sàng nói về đủ loại đề tài, trả lời mọi câu hỏi một cách tự tin dù đôi lúc nó đưa ra thông tin sai hay trộn lẫn chuyện sai với chuyện đúng. Rất có thể chỉ một thời gian ngắn nữa chúng ta sẽ có trong tay chiếc điện thoại cài sẵn ứng dụng “biết tuốt”, hỏi gì đáp nấy chứ không cần gõ vào ô tìm kiếm thông tin nữa.

Với chức năng nhìn, ứng dụng có biểu tượng dấu “+” khi nhấp vào có thể tải lên hình ảnh rồi khoanh vùng cần tập trung trò chuyện. Sau đó có thể tiến hành hỏi đáp với ChatGPT về tấm hình đó. Chẳng hạn có người chụp hình ống nước bị hỏng rồi hỏi “Làm sao để sửa cái này?”, ChatGPT sẽ đưa ra lời khuyên cặn kẽ những bước cần làm để sửa chữa ống nước. Có người chụp ảnh các thứ bên trong chiếc tủ lạnh rồi đưa cho ChatGPT, nó sẽ gợi ý các món có thể nấu với các nguyên liệu có sẵn. Theo tờ New York Times, nếu cung cấp cho nó hình chụp một bài toán có cả từ, số và hình vẽ, nó có thể đọc đề toán rồi giải nhanh như chớp.

Không chỉ OpenAI, các hãng công nghệ lớn đang đua nhau tích hợp chức năng nghe nói cho các hệ thống trí tuệ nhân tạo của họ. Amazon đang cố gắng nâng cấp Alexa để huấn luyện cho nó khả năng đối đáp uyển chuyển hơn, về nhiều đề tài hơn. Apple, rất kín tiếng về các nỗ lực xây dựng mô hình để cạnh tranh với ChatGPT cũng vừa thử nghiệm hệ thống AI của riêng mình. Trước đó, Microsoft đã tích hợp chức năng tìm kiếm dựa vào hình cho Bing. Riêng Google đang xây dựng mô hình AI mang tên Gemini xử lý được đầu vào không chỉ là văn bản mà còn cả video, hình ảnh, âm thanh, giọng nói…

Công nghệ chuyển văn bản thành giọng nói của OpenAI cũng mở ra cơ hội cho hãng này hợp tác với nhiều nơi khác. Chẳng hạn, Spotify cho biết họ sẽ sử dụng công nghệ giọng nói của OpenAI để dịch tự động các podcast của mình sang đủ loại ngôn ngữ khác bằng đúng giọng nói trên podcast nguyên thủy. Cũng có những lo ngại OpenAI sẽ thu thập rất nhiều giọng nói của người dùng để đưa vào cơ sở dữ liệu của họ - đây sẽ là nơi tiềm ẩn sản sinh các mẫu giả giọng người khác cho những mục đích xấu nếu không có biện pháp phòng ngừa từ trước.

ChatGPT giờ đã biết nhìn, biết nghe và biết nói

BÌNH LUẬN Hủy trả lời

Tin liên quan

TPHCM hướng dẫn cán bộ, công chức sử dụng AI

Thấy gì từ DeepSeek?

Quỹ đầu tư của chính phủ Singapore đàm phán rót vốn vào OpenAI

Nhu cầu AI bùng nổ, giúp lợi nhuận của hãng chip Nvidia tăng 9 lần

Làm việc cùng AI hay mất việc vì AI?

Cuộc chiến tác quyền với GenAI: Chọn đọc ChatGPT hay đọc báo?

Có thể bạn quan tâm

Tesla, Elon Musk và gói tiền thưởng ngàn tỉ đô la

Tổ máy số 2 Thủy điện Hòa Bình mở rộng hòa lưới điện quốc gia

Từ ‘Tiệm phở của anh Hai’ đến câu chuyện ngành game Việt

TPHCM hỗ trợ Tây Ninh 1.800 tỉ đồng làm cao tốc TPHCM – Mộc Bài

Bộ Giáo dục và Đào tạo: Hệ số lương đặc thù là xứng đáng, không phải ân huệ

Đoàn tuyên giáo, báo chí TPHCM thăm, tặng quà xã biên giới Cao Bằng

Đồng Nai chuẩn bị khởi công ba khu công nghiệp quy mô lớn vào ngày 19-12

Có 7 mỏ đá ở Đồng Nai được áp dụng cơ chế đặc thù

TPHCM chi 34 tỉ đồng chiếu sáng các công trình văn hoá về đêm

15 chỉ tiêu phát triển kinh tế – xã hội năm 2026 đã được Quốc hội thông qua

SHB được dự báo vào rổ chỉ số toàn cầu FTSE Global All Cap

Thị trường Việt rộng cửa, Ba Lan tăng tốc xuất khẩu thực phẩm

Tin mới

Tesla, Elon Musk và gói tiền thưởng ngàn tỉ đô la

Tổ máy số 2 Thủy điện Hòa Bình mở rộng hòa lưới điện quốc gia

Sáu chiều không gian phát triển của TPHCM: Không gian biển: Cửa ngõ logistics toàn cầu và khát vọng cảng thị quốc tế

Từ ‘Tiệm phở của anh Hai’ đến câu chuyện ngành game Việt

TPHCM hỗ trợ Tây Ninh 1.800 tỉ đồng làm cao tốc TPHCM – Mộc Bài