Điểm nóng mới trong cuộc thi mô hình lớn: sự nhảy vọt của độ dài văn bản từ 4k đến 400k token
Công nghệ mô hình lớn đang phát triển với tốc độ đáng kinh ngạc, khả năng xử lý văn bản từ 4k token ban đầu đã tăng vọt lên 400k token, khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới của các nhà cung cấp mô hình lớn.
Ở nước ngoài, OpenAI đã nâng cấp nhiều lần để tăng độ dài ngữ cảnh của GPT-3.5 và GPT-4 lần lượt lên 16k và 32k token. Đối thủ của họ, Anthropic, đã mở rộng độ dài ngữ cảnh lên 100k token. LongLLaMA thậm chí đã mở rộng độ dài ngữ cảnh lên 256k token hoặc hơn.
Trong nước, một công ty khởi nghiệp đã ra mắt sản phẩm trợ lý thông minh có thể hỗ trợ nhập khoảng 40k token văn bản. Công nghệ LongLoRA được phát triển hợp tác giữa Đại học Hồng Kông và MIT, có thể mở rộng độ dài văn bản của mô hình 7B lên 100k token, mô hình 70B lên 32k token.
Hiện tại, nhiều công ty mô hình lớn hàng đầu trong và ngoài nước cùng với các tổ chức nghiên cứu đều xem việc mở rộng chiều dài ngữ cảnh là hướng nâng cấp trọng điểm. Những công ty này phần lớn là những doanh nghiệp ngôi sao được thị trường vốn ưa chuộng, số tiền huy động và định giá liên tục lập kỷ lục mới.
Công ty mô hình lớn tập trung vào công nghệ văn bản dài có ý nghĩa gì? Xét về bề mặt, đó là sự nâng cao về độ dài văn bản đầu vào và khả năng đọc, từ một bài viết ngắn đến một cuốn tiểu thuyết dài. Ý nghĩa sâu sắc hơn là thúc đẩy việc áp dụng thực tế của mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học, đáp ứng nhu cầu xử lý tài liệu dài của những lĩnh vực này.
Tuy nhiên, độ dài văn bản không phải càng dài càng tốt. Nghiên cứu cho thấy, việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn và sự cải thiện hiệu quả không thể đồng nghĩa trực tiếp, điều quan trọng là mô hình sử dụng nội dung ngữ cảnh như thế nào. Tuy nhiên, hiện tại ngành công nghiệp vẫn chưa đạt tới giới hạn về độ dài văn bản, 400k token có thể chỉ là khởi đầu.
Công nghệ văn bản dài được chú ý vì nó có thể giải quyết một số vấn đề sớm của mô hình lớn, như việc các nhân vật ảo quên thông tin quan trọng trong bối cảnh, phân tích chuyên ngành bị giới hạn trong việc tạo ra, v.v. Đồng thời, văn bản dài cũng là công nghệ then chốt để thúc đẩy sự phát triển của các ứng dụng gốc Agent và AI trong tương lai.
Văn bản dài có thể giúp mô hình hiểu chính xác ngữ nghĩa hơn, giảm thiểu sự mơ hồ và nâng cao độ chính xác của suy luận bằng cách cung cấp nhiều ngữ cảnh và thông tin chi tiết hơn. Điều này đánh dấu sự chuyển mình của mô hình lớn từ LLM sang Long LLM.
Công nghệ văn bản dài thể hiện nhiều lợi thế trong ứng dụng thực tế: có thể phân tích nhanh chóng các điểm chính của bài viết dài, trích xuất thông tin quan trọng từ báo cáo tài chính, thực hiện hỏi đáp trên toàn bộ cuốn sách; về mặt mã, có thể chuyển đổi trực tiếp từ luận văn thành mã; còn có thể thực hiện các chức năng đối thoại dài cá nhân hóa như đóng vai. Những chức năng này thúc đẩy robot đối thoại phát triển theo hướng chuyên nghiệp hơn, cá nhân hóa hơn và sâu sắc hơn.
Tuy nhiên, công nghệ văn bản dài đang đối mặt với tình huống "tam giác bất khả" : có sự ràng buộc lẫn nhau giữa độ dài văn bản, sự chú ý và sức mạnh tính toán. Văn bản càng dài thì càng khó tập trung sự chú ý, trong khi xử lý văn bản dài lại cần nhiều sức mạnh tính toán hơn. Tình huống này xuất phát từ cấu trúc Transformer mà hầu hết các mô hình sử dụng, lượng tính toán của cơ chế tự chú ý tăng theo cấp số bình phương theo độ dài ngữ cảnh.
Hiện tại có ba giải pháp chính: sử dụng công cụ bên ngoài để hỗ trợ xử lý, tối ưu hóa tính toán cơ chế tự chú ý, tối ưu hóa chính mô hình. Mỗi giải pháp đều có lợi và hại riêng, việc tìm ra điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán là thách thức mà các nhà sản xuất mô hình lớn phải đối mặt.
Mặc dù công nghệ văn bản dài vẫn còn có không gian để tối ưu hóa, nhưng nó đại diện cho xu hướng phát triển của mô hình lớn lên một cấp độ cao hơn, hứa hẹn sẽ thúc đẩy AI đạt được những ứng dụng đột phá trong nhiều lĩnh vực chuyên môn hơn.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
8 thích
Phần thưởng
8
5
Chia sẻ
Bình luận
0/400
GasGuzzler
· 07-13 18:22
40w token...Khả năng tính toán要爆炸了吧
Xem bản gốcTrả lời0
BoredRiceBall
· 07-13 18:22
40w... khoảng cách đến con người lại gần thêm một chút
Xem bản gốcTrả lời0
digital_archaeologist
· 07-13 18:22
Khả năng tính toán cảnh báo!
Xem bản gốcTrả lời0
AltcoinOracle
· 07-13 18:18
thú vị khi độ phức tạp của thuật toán tăng lên với 400k token... rõ ràng là có đột phá từ các mẫu chú ý truyền thống thật lòng mà nói
Mô hình lớn có độ dài văn bản vượt quá 400.000 token, công nghệ văn bản dài trở thành lĩnh vực mới trong AI
Điểm nóng mới trong cuộc thi mô hình lớn: sự nhảy vọt của độ dài văn bản từ 4k đến 400k token
Công nghệ mô hình lớn đang phát triển với tốc độ đáng kinh ngạc, khả năng xử lý văn bản từ 4k token ban đầu đã tăng vọt lên 400k token, khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới của các nhà cung cấp mô hình lớn.
Ở nước ngoài, OpenAI đã nâng cấp nhiều lần để tăng độ dài ngữ cảnh của GPT-3.5 và GPT-4 lần lượt lên 16k và 32k token. Đối thủ của họ, Anthropic, đã mở rộng độ dài ngữ cảnh lên 100k token. LongLLaMA thậm chí đã mở rộng độ dài ngữ cảnh lên 256k token hoặc hơn.
Trong nước, một công ty khởi nghiệp đã ra mắt sản phẩm trợ lý thông minh có thể hỗ trợ nhập khoảng 40k token văn bản. Công nghệ LongLoRA được phát triển hợp tác giữa Đại học Hồng Kông và MIT, có thể mở rộng độ dài văn bản của mô hình 7B lên 100k token, mô hình 70B lên 32k token.
Hiện tại, nhiều công ty mô hình lớn hàng đầu trong và ngoài nước cùng với các tổ chức nghiên cứu đều xem việc mở rộng chiều dài ngữ cảnh là hướng nâng cấp trọng điểm. Những công ty này phần lớn là những doanh nghiệp ngôi sao được thị trường vốn ưa chuộng, số tiền huy động và định giá liên tục lập kỷ lục mới.
Công ty mô hình lớn tập trung vào công nghệ văn bản dài có ý nghĩa gì? Xét về bề mặt, đó là sự nâng cao về độ dài văn bản đầu vào và khả năng đọc, từ một bài viết ngắn đến một cuốn tiểu thuyết dài. Ý nghĩa sâu sắc hơn là thúc đẩy việc áp dụng thực tế của mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học, đáp ứng nhu cầu xử lý tài liệu dài của những lĩnh vực này.
Tuy nhiên, độ dài văn bản không phải càng dài càng tốt. Nghiên cứu cho thấy, việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn và sự cải thiện hiệu quả không thể đồng nghĩa trực tiếp, điều quan trọng là mô hình sử dụng nội dung ngữ cảnh như thế nào. Tuy nhiên, hiện tại ngành công nghiệp vẫn chưa đạt tới giới hạn về độ dài văn bản, 400k token có thể chỉ là khởi đầu.
Công nghệ văn bản dài được chú ý vì nó có thể giải quyết một số vấn đề sớm của mô hình lớn, như việc các nhân vật ảo quên thông tin quan trọng trong bối cảnh, phân tích chuyên ngành bị giới hạn trong việc tạo ra, v.v. Đồng thời, văn bản dài cũng là công nghệ then chốt để thúc đẩy sự phát triển của các ứng dụng gốc Agent và AI trong tương lai.
Văn bản dài có thể giúp mô hình hiểu chính xác ngữ nghĩa hơn, giảm thiểu sự mơ hồ và nâng cao độ chính xác của suy luận bằng cách cung cấp nhiều ngữ cảnh và thông tin chi tiết hơn. Điều này đánh dấu sự chuyển mình của mô hình lớn từ LLM sang Long LLM.
Công nghệ văn bản dài thể hiện nhiều lợi thế trong ứng dụng thực tế: có thể phân tích nhanh chóng các điểm chính của bài viết dài, trích xuất thông tin quan trọng từ báo cáo tài chính, thực hiện hỏi đáp trên toàn bộ cuốn sách; về mặt mã, có thể chuyển đổi trực tiếp từ luận văn thành mã; còn có thể thực hiện các chức năng đối thoại dài cá nhân hóa như đóng vai. Những chức năng này thúc đẩy robot đối thoại phát triển theo hướng chuyên nghiệp hơn, cá nhân hóa hơn và sâu sắc hơn.
Tuy nhiên, công nghệ văn bản dài đang đối mặt với tình huống "tam giác bất khả" : có sự ràng buộc lẫn nhau giữa độ dài văn bản, sự chú ý và sức mạnh tính toán. Văn bản càng dài thì càng khó tập trung sự chú ý, trong khi xử lý văn bản dài lại cần nhiều sức mạnh tính toán hơn. Tình huống này xuất phát từ cấu trúc Transformer mà hầu hết các mô hình sử dụng, lượng tính toán của cơ chế tự chú ý tăng theo cấp số bình phương theo độ dài ngữ cảnh.
Hiện tại có ba giải pháp chính: sử dụng công cụ bên ngoài để hỗ trợ xử lý, tối ưu hóa tính toán cơ chế tự chú ý, tối ưu hóa chính mô hình. Mỗi giải pháp đều có lợi và hại riêng, việc tìm ra điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán là thách thức mà các nhà sản xuất mô hình lớn phải đối mặt.
Mặc dù công nghệ văn bản dài vẫn còn có không gian để tối ưu hóa, nhưng nó đại diện cho xu hướng phát triển của mô hình lớn lên một cấp độ cao hơn, hứa hẹn sẽ thúc đẩy AI đạt được những ứng dụng đột phá trong nhiều lĩnh vực chuyên môn hơn.