Tháng 8 năm 2017 các nhà khoa học tại Google, cụ thể là đơn vị Google Brain, đơn vị nghiên cứu chuyên sâu về A.I của Google từ 2011, đã phát minh ra một thuật toán gọi là Transformer (tên thuật toán rất giống phim robot đấm nhau của anh Mai Cồ Bảy ))
Thuật toán Transformer rất đột phá, cụ thể là đột phá về huấn luyện A.I ngôn ngữ. Trước khi có thuật toán này, loài người muốn dạy A.I thì phải làm chuyện tạo tập dữ liệu huấn luyện sẵn theo cặp câu hỏi-trả lời (labeling data) như ở trên đã đề cập, và máy móc thực ra chỉ ghi nhớ cặp câu hỏi-trả lời chứ không “hiểu” được ý nghĩa của câu văn đó, khác nhau rất lớn giữa học vẹt và học hiểu ))))
Dễ hiểu hơn nữa là sau năm 2017 chúng ta chỉ việc đổ dữ liệu chữ vào càng nhiều càng tốt, máy tính sẽ tự tìm hiểu cái thứ mình đổ vào nó nghĩa là gì thay vì mình phải chỉ cho chúng nó ý nghĩa.
Trích nguyên văn trong tài liệu công bố về transformer của google: “with transformers, computers can see the same patterns humans see”. đoạn này dịch mất hay ))
Google rất nhân văn khi công bố tài liệu chi tiết về thuật toán Transformer công khai cho tất cả mọi người truy cập được. Đồng thời cung cấp quyền sử dụng mở (Open-Source) đối với thuật toán này
Đột nhiên toàn bộ giới khoa học làm A.I được hưởng lợi từ phát minh của Google. Trong đó có OpenAI ))))) một công ty thành lập năm 2015 và không có thành tựu gì nổi bật cho tới sau 2017 )))
Sau khi Google công bố Transformer, thì sau đó vài tháng những con A.I ngôn ngữ đầu tiên dựa trên thuật toán mới này ồ ạt ra đời.
Tháng 1.2018 thì OpenAI cho ra đời con A.I đầu tiên dựa trên Transformer là GPT-1, họ ứng dụng rất nhanh, nhanh hơn cả chính Google luôn )))
GPT viết tắt của Generative Pre-trained Transformer nghĩa là “chương trình Sinh Chữ đã được huấn luyện theo phương pháp Transformer”
Con A.I GPT này được tạo ra với mục đích chính là để “Sinh Chữ”. Cụ thể là bạn sẽ chơi trò nối từ với nó ) , bạn viết 1 câu, nó sẽ đọc câu đó rồi dựa trên kiến thức nó đang lưu trữ trong bộ nhớ của nó mà “sinh ra chữ” nối tiếp cái câu mà bạn viết.
Ví dụ:
Bạn nhập: Việt Nam là
ChatGPT: Việt Nam là một nước nằm trên đại dương Á Đông, tại khu vực Đông Nam Á…
Đây chính là cái thứ trông có vẻ “vi diệu” của việc: bạn chat 1 câu với ChatGPT và nó nói lại được một câu.
Thực chất không phải là nó đang trả lời bạn mà là nó đang chơi nối từ bằng cách “Sinh Chữ” để nối tiếp ý nghĩa của câu mà bạn nhập vô chat với nó.
GPT-1 chính là đời đầu của ChatGPT. GPT-1 này là một con A.I khá là bé, bé đúng nghĩa về kích thước cũng như độ phức tạp
Trong thế giới A.I Ngôn Ngữ thì người ta đo độ phức tạp – tương ứng với mức độ “thông minh” của con A.I – bằng một đơn vị là Hyper Parameters – Siêu Tham Số, cái khái niệm này có thể giải thích nôm na là con A.I này hiểu được ý nghĩa của cái đống văn bản được dùng để dạy nó sâu tới bao nhiêu tầng ý nghĩa.
Để huấn luyện con A.I GPT này thì các khoa học gia tại OpenAI thu thập 1 lượng lớn văn bản chữ viết của con người, đa phần là từ Wikipedia, bách khoa toàn thư, các tờ báo lớn và công khai, khối lượng đâu đó khoảng hàng trăm GB vài trăm triệu văn bản. Họ thu thập xong thì làm sạch, chọn lọc nội dung. Rồi đem đám văn bản đó cho con A.I đọc, bắt nó đọc rất rất nhiều lần, mỗi lần đọc cái khối dữ liệu đó nó lại nhìn thấy một tầng ý nghĩa đằng sau những con chữ đó, càng nhiều lần thì càng nhiều tầng ý nghĩa.
Ví dụ câu văn sau:
Việt Nam là đế chế Đông Lào
ở lần đọc thứ 1 A.I hiểu Việt Nam là đế chế tên Đông Lào
ở lần đọc thứ 2 A.I hiểu Việt Nam ở phía đông nước Lào
ở lần đọc thứ 3 A.I hiểu Việt Nam là một đế chế nằm ở phía Đông nước Lào
Đọc ở lần thứ n nào đó thì A.I hiểu luôn là câu trên là một câu troll của một đám vOzer luôn )) thật đấy, éo đùa đâu ))
Càng nhiều tầng ý nghĩa được A.I nhận ra thì A.I càng nhiều Parameters
con A.I GPT-1 chỉ có khoảng 117 triệu Parameters, GPT-2 (2019) đạt 1.5 tỉ Parameters, GPT-3 (2020) đạt tới 175 tỉ Parameters
2 con A.I GPT-1 và GPT-2 hầu như không được công chúng biết tới vì hiệu quả sinh chữ không thực sự ấn tượng do mức độ hiểu sâu các tầng ý nghĩa đằng sau đống chữ viết của loài người vẫn còn nông quá, dĩ nhiên ở thời điểm đó con người vẫn chưa biết sâu bao nhiêu thì gọi là sâu và hiệu quả )), nên các bác kỹ sư tại OpenAI lại miệt mài dạy cho con A.I GPT đào sâu thêm nhiều tầng nữa, cho tới tháng 5 năm 2020 thì con A.I GPT đã đào tới 175 tỉ Parameters, kết quả Sinh Chữ lúc này khiến chính họ còn thấy bùng nổ khi nó chơi nối từ với độ thông minh-hiểu biết ngang bằng một đứa trẻ 10 tuổi về mặt ngôn ngữ. Họ đặt tên nó là GPT-3