66b hay 66B đề cập đến một mô hình ngôn ngữ lớn được xây dựng để xử lý văn bản tự nhiên với kích thước tham số lên tới khoảng 66 tỷ. Mô hình như vậy thường được dùng cho sinh văn bản, trả lời câu hỏi, tóm tắt và nhiều tác vụ ngôn ngữ khác. Phiên bản 66B nổi bật nhờ khả năng hiểu ngữ cảnh rộng và sinh đáp án có chất lượng cao khi được tinh chỉnh trên dữ liệu chất lượng.
66B xuất hiện trong họ các mô hình ngôn ngữ lớn do cộng đồng mở phát triển, ví dụ dự án GPT-NeoX hoặc các nỗ lực mô hình 66B với mục tiêu cung cấp khả năng ngôn ngữ cho nhiều ngôn ngữ và ứng dụng. Việc huấn luyện trên tập dữ liệu khổng lồ đòi hỏi tài nguyên tính toán mạnh và quản lý rủi ro về sai lệch và lộ thông tin.
66B được xây dựng trên kiến trúc transformer, với nhiều tầng chú ý và feed-forward. Mô hình xử lý đầu vào theo chuỗi, dự đoán từ tiếp theo dựa trên ngữ cảnh trước đó. Độ lớn tham số cho phép biểu diễn kiến thức phong phú, nhưng cũng đòi hỏi kỹ thuật tối ưu hóa, bình thường hóa và chiến lược phân bổ tài nguyên để giảm chi phí vận hành và tăng hiệu quả inference.
Với quy mô lớn của 66B, người dùng có thể triển khai trong các hệ thống hỗ trợ viết văn, trợ lý ảo, phân tích dữ liệu văn bản, tóm tắt tài liệu, và hỗ trợ dịch thuật. Tuy nhiên, để đạt hiệu quả tốt nhất, cần tinh chỉnh trên dữ liệu đặc thù và giám sát chất lượng đầu ra, đồng thời xem xét các rủi ro như sai lệch và lạm dụng.