GPT-4 là gì? GPT-4 sẽ thay thế con người?

GPT-3.5 gắn liền với sự đời của ChatGPT và rất có thể GPT-4, phiên bản kế tiếp của GPT-3, sẽ giúp các ChatBot như ChatGPT trở nên thông minh hơn, chính xác hơn.

Nội dung bài viết show

GPT-4 là gì?

GPT-4 là mô hình AI dùng để xử lý ngôn ngữ tự nhiên (ngôn ngữ con người thường dùng để trao đổi hàng ngày với nhau) thế hệ thứ 4, được phát triển bởi công ty công nghệ OpenAI.

(*Mô hình AI: về bản chất là một chương trình phần mềm/thuật toán sử dụng một tập hợp dữ liệu để thực hiện các nhiệm vụ cụ thể như nhận dạng mẫu, trả lời bằng văn bản, hình ảnh,…)

GPT-4 sẽ đưa chúng ta đến gần hơn với một cuộc cách mạng AI thực sự?

Đã gần ba năm kể từ khi GPT-3 được giới thiệu vào tháng 5 năm 2020. Kể từ đó, mô hình AI xử lý văn bản đã thu hút được rất nhiều sự quan tâm nhờ khả năng tạo văn bản trông giống như được viết bởi con người thực thụ. Giờ đây, có vẻ như phiên bản tiếp theo của mô hình này, GPT-4, sắp ra mắt, với ngày phát hành ước tính vào khoảng đầu năm 2023.

Thế nhưng cho đến nay (đầu tháng 1/2023), các chi tiết chính xác về GPT-4 vẫn còn khá sơ sài. OpenAI, công ty đứng sau GPT-4, đã không công khai nhiều thông tin về mô hình mới, chẳng hạn như các tính năng hoặc khả năng của nó. Tuy nhiên, những tiến bộ gần đây trong lĩnh vực AI, đặc biệt là về Xử lý ngôn ngữ tự nhiên (NLP), có thể cung cấp một số manh mối về những gì chúng ta có thể mong đợi từ GPT-4.

Cập nhật 2/2/2023: Cuối cùng thì thông tin về GPT-4 cũng sắp sửa được công khai. Theo tin từ semafor, công cụ tìm kiếm của Microsoft, Bing sẵn sàng kết hợp phiên bản ChatGPT-4 vào sản phẩm của mình trong vài tuần tới, đánh dấu sự tiến bộ nhanh chóng trong lĩnh vực AI và là thách thức đối với Sự thống trị của Google.

Tin tức Semafor cho biết, GPT-4 của OpenAI phản hồi nhanh hơn nhiều so với phiên bản hiện tại (GPT-3) và các phản hồi/trả lời giống con người hơn và chi tiết hơn. Ngoài ra, OpenAI cũng đang có kế hoạch ra mắt ứng dụng ChatGPT trên thiết bị di động và thử nghiệm một tính năng mới trong phần mềm tạo hình ảnh Dall-E của mình, tính năng này sẽ tạo video tự động với sự trợ giúp của trí tuệ nhân tạo.

Chi tiết: https://www.semafor.com/article/02/01/2023/chatgpt-is-about-to-get-even-better-and-microsofts-bing-could-win-big

GPT là gì?

GPT là viết tắt của Generative Pre-training Transformer, một mô hình mạng thần kinh học sâu (deep-learning neural network model) được đào tạo dựa trên dữ liệu có sẵn từ internet để tạo ra khối lượng lớn văn bản. GPT-3 là thế hệ thứ ba của công nghệ này và là một trong những mẫu AI tạo văn bản tiên tiến nhất hiện nay

Có thể coi GPT-3 hoạt động giống như các trợ lý giọng nói, chẳng hạn như Siri hoặc Alexa, nhưng có năng lực lớn hơn nhiều. Thay vì yêu cầu Alexa phát bài hát yêu thích của bạn hoặc yêu cầu Siri nhập văn bản, bạn có thể yêu cầu GPT-3 viết toàn bộ Sách điện tử chỉ trong vài phút hoặc tạo 100 ý tưởng bài đăng trên mạng xã hội trong vòng chưa đầy 45 giây. Tất cả những gì người dùng cần làm là đưa ra lời nhắc (đặt câu hỏi). Miễn là việc đặt câu hỏi rõ ràng và cụ thể, GPT-3 có thể trả lời bất cứ thứ gì bạn yêu cầu bằng văn bản.

Kể từ lần đầu ra mắt cho đến nay GPT-3 đã được ứng dụng vào kinh doanh khá nhiều. Các công ty đang sử dụng GPT-3 để tóm tắt văn bản, dịch ngoại ngữ,… và tự động hóa quy mô lớn cho hầu hết mọi tác vụ văn bản.

Mặc dù GPT-3 có năng lực tạo văn bản giống con người, rất dễ đọc, nhưng GPT-3 vẫn chưa hoàn hảo. Các lỗi bắt đầu phát sinh khi được yêu cầu viết đoạn văn bản dài, đặc biệt là khi nói đến các chủ đề phức tạp đòi hỏi sự hiểu biết sâu sắc về chuyên môn.

Vì thế, GPT-3 không thay thế hoàn toàn người viết hoặc lập trình viên và không nên coi GPT-3 như vậy. Thay vào đó, GPT-3 nên được xem như một trợ lý viết lách, một công cụ có thể giúp mọi người tiết kiệm rất nhiều thời gian khi họ cần tạo ý tưởng bài đăng trên blog hoặc phác thảo sơ bộ nội dung quảng cáo hoặc thông cáo báo chí…

Nhiều thông số hơn nghĩa là tốt hơn?

Một điều cần hiểu về các mô hình AI là cách các mô hình này sử dụng các tham số để đưa ra dự đoán. Các tham số của mô hình AI xác định cấu trúc đầu ra của văn bản. Số lượng tham số trong mô hình AI thường được sử dụng làm thước đo hiệu suất. Càng nhiều tham số, mô hình càng mạnh mẽ, trơn tru hơn và có thể đưa ra câu trả lời chính xác hơn (dự đoán chính xác hơn).

Ví dụ: khi GPT-1 được phát hành vào năm 2018, nó có 117 triệu thông số. GPT-2, được phát hành một năm sau đó, có 1,2 tỷ tham số, trong khi GPT-3 nâng con số lên cao hơn nữa, 175 tỷ tham số. Theo một cuộc phỏng vấn vào tháng 8 năm 2021 với tờ tạp chí Wired.com, Andrew Feldman, người sáng lập và Giám đốc điều hành của Cerebras, một công ty hợp tác với OpenAI, đã đề cập rằng GPT-4 sẽ có khoảng 100 nghìn tỷ tham số. Điều này sẽ làm cho GPT-4 mạnh hơn gấp 100 lần so với GPT-3, một bước nhảy vọt về kích thước tham số.

Tuy nhiên, bất chấp tuyên bố của Feldman, có những lý do chính đáng để có thể nghĩ rằng GPT-4 trên thực tế sẽ không có 100 nghìn tỷ tham số. Số lượng tham số càng lớn, mô hình càng trở nên đắt tiền để đào tạo và tinh chỉnh, do cần có lượng điện năng tính toán khổng lồ.

Thêm vào đó, có nhiều yếu tố khác ảnh hưởng đến tính hiệu quả. Lấy ví dụ Megatron-Turing NLG, một mô hình tạo văn bản do Nvidia và Microsoft xây dựng, có hơn 500 tỷ tham số. Mặc dù có kích thước lớn nhưng MT-NLG không bằng GPT-3 về hiệu suất. Vì thế, lớn hơn không nhất thiết có nghĩa là tốt hơn.

Rất có thể, GPT-4 thực sự sẽ có nhiều tham số hơn GPT-3, nhưng vẫn còn phải xem liệu con số đó có cao hơn đáng kể hay không. Ngoài ra, rất có thể OpenAI đang theo đuổi mục tiêu khác, chẳng hạn như xây dựng một mô hình tinh gọn hơn, tập trung vào việc cải tiến định tính trong thiết kế mô hình AI và căn chỉnh thuật toán để tạo ra kết quả chính xác hơn với mức phí rẻ hơn.

GPT-4 có thể làm được gì?

Kết quả thực tế thì phải chờ công bố của OpenAI. Dẫu vậy, chúng ta vẫn có thể suy đoán xem GPT-4 sẽ khác với GPT-3 như thế nào dựa trên các thông tin “đồn đoán” đã biết.

Mặc dù tương lai của việc phát triển AI deep-learning là đa thể thức <Trí tuệ nhân tạo đa thể thức: Multimodal AI>, hiểu một cách nôm na là thể hiện/xử lý dưới nhiều hình thức khác nhau (chẳng hạn trí tuệ nhân tạo dùng để tạo ảnh tự động, hay trí tuệ nhân tạo mô phỏng giọng nói con người,…)

Nhưng GPT-4 có thể sẽ vẫn chỉ là trí tuệ nhân tạo dùng để xử lý văn bản.

Là con người, chúng ta sống trong một thế giới đa giác quan chứa đầy các đầu vào âm thanh, hình ảnh và các loại văn bản khác nhau. Do đó, việc phát triển AI cuối cùng sẽ tạo ra một mô hình AI đa thể thức, có thể kết hợp xử lý nhiều loại thông tin đầu vào, là điều tất yếu.

Tuy nhiên, một mô hình đa thể thức tốt khó thiết kế hơn nhiều so với một mô hình dùng để xử lý văn bản. Công nghệ hiện tại chưa cho phép, và dựa trên những giới hạn về kích thước tham số, có khả năng OpenAI đang tập trung vào việc mở rộng và cải thiện mô hình AI xử lý văn bản.

Ngoài ra, cũng có khả năng GPT-4 sẽ ít phụ thuộc hơn vào lời nhắc chính xác (nghĩa là ít phụ thuộc vào việc người dùng phải ghi ra câu hỏi rõ ràng). Một trong những hạn chế của GPT-3 là lời nhắc văn bản cần được viết cẩn thận để có được kết quả như ý muốn. Khi người sử dụng ChatGPT viết câu hỏi không cẩn thận thì có thể sẽ nhận được kết quả đầu ra không trung thực, sai hoặc thậm chí phản ánh quan điểm cực đoan.

Đây là một phần của cái được gọi là Căn chỉnh AI (https://en.wikipedia.org/wiki/AI_alignment) và cũng là một trong những thách thức để tạo ra một mô hình AI hiểu đầy đủ ý định của người dùng. Các mô hình AI được đào tạo bằng cách sử dụng bộ dữ liệu văn bản có sẵn từ internet có thể rất dễ đi vào thành kiến, sai lầm.

Điều đó nói lên rằng, có những lý do chính đáng để chúng ta tin rằng các nhà phát triển sẽ tập trung vào việc căn chỉnh AI. Sự lạc quan này đến từ một số đột phá trong quá trình phát triển InstructGPT, một phiên bản nâng cao hơn của GPT-3, được đào tạo dựa trên phản hồi của con người, để tuân theo các hướng dẫn và ý định của người dùng chặt chẽ hơn. Kết quả khảo sát thử nghiệm cho thấy InstructGPT ít phụ thuộc vào cách thức đặt câu hỏi so với GPT-3.

intructgpt — So sánh InstructGPT với ChatGPT (source: OpenAI)

InstructGPT: https://openai.com/blog/instruction-following/

Tuy nhiên, cần lưu ý rằng, các thử nghiệm này chỉ được thực hiện với các nhân viên của OpenAI, một nhóm khá đồng nhất về nhận thức và có thể không khác biệt nhiều về giới tính, tôn giáo hoặc quan điểm chính trị. Vì thế, chắc chắn rằng GPT-4 sẽ cần phải trải qua quá trình đào tạo đa dạng hơn để cải thiện sự liên kết.

GPT-4 sẽ thay thế con người?

Mặc dù GPT-4 có năng lực lớn hơn GPT-3, nhưng không chắc mô hình AI dựa trên GPT-4 sẽ thay thế hoàn toàn khả năng viết của con người và lập trình viên.

Vẫn còn nhiều việc phải làm, từ tối ưu hóa tham số đến căn chỉnh AI đa thể thức. Có thể phải mất nhiều năm nữa chúng ta mới thấy một chương trình tạo văn bản có thể đạt được sự hiểu biết thực sự của con người, bao gồm sự phức tạp về nhận thức và các sắc thái trải nghiệm thực tế.

Mặc dù vậy, vẫn có những lý do chính đáng để chào đón sự xuất hiện của GPT-4. Tối ưu hóa tham số – thay vì chỉ tăng trưởng tham số – có thể sẽ mang đến một mô hình AI với sức mạnh tính toán cao hơn nhiều so với mô hình trước đó. Và khi sự liên kết được cải tiến sẽ làm cho GPT-4 trở nên thân thiện hơn với người dùng.

Chúng ta vẫn chỉ mới ở giai đoạn đầu của việc phát triển và áp dụng các công cụ AI.