大模型文本长度突破40万token 长文本技术成AI新赛道

robot
摘要生成中

大模型竞赛新热点:文本长度从4千到40万token的飞跃

大模型技术正以惊人的速度发展,文本处理能力从最初的4千token跃升至40万token,长文本能力似乎成为大模型厂商的新标配。

国外方面,OpenAI通过多次升级将GPT-3.5和GPT-4的上下文长度分别提升至1.6万和3.2万token。其竞争对手Anthropic一举将上下文长度扩展到10万token。LongLLaMA更是将上下文长度拓展到25.6万token甚至更多。

国内方面,某初创公司推出的智能助手产品可支持输入约40万token的文本。港中文与MIT合作开发的LongLoRA技术,能将7B模型的文本长度拓展到10万token,70B模型拓展到3.2万token。

目前,国内外众多顶级大模型公司和研究机构都将拓展上下文长度作为重点升级方向。这些公司大多是资本市场追捧的明星企业,融资金额和估值屡创新高。

大模型公司聚焦长文本技术意味着什么?表面上看是输入文本长度和阅读能力的提升,从一篇短文到一本长篇小说。更深层的意义在于推动大模型在金融、司法、科研等专业领域的落地应用,满足这些领域对长文档处理的需求。

然而,文本长度并非越长越好。研究表明,模型支持更长上下文输入与效果提升并不能直接划等号,关键在于模型如何利用上下文内容。不过目前业界对文本长度的探索仍未达到极限,40万token可能只是开始。

长文本技术之所以受到关注,是因为它可以解决大模型早期的一些问题,如虚拟角色场景中遗忘重要信息、专业领域分析生成受限等。同时,长文本也是推进未来Agent和AI原生应用发展的关键技术。

长文本可以通过提供更多上下文和细节信息,帮助模型更准确地理解语义、减少歧义,提高推理的准确性。这标志着大模型进入了从LLM到Long LLM的新阶段。

长文本技术在实际应用中展现出多方面的优势:可快速分析长文章要点、提取财报关键信息、实现整本书的问答;在代码方面可直接将论文转化为代码;还能实现角色扮演等个性化长对话功能。这些功能推动对话机器人向更专业化、个性化、深度化的方向发展。

然而,长文本技术面临"不可能三角"困境:文本长度、注意力和算力之间存在相互制约。文本越长越难聚焦注意力,而处理长文本又需要更多算力。这一困境源于大多数模型采用的Transformer结构,其自注意力机制的计算量随上下文长度呈平方级增长。

目前主要有三种解决方案:利用外部工具辅助处理、优化自注意力机制计算、优化模型本身。各方案各有利弊,如何在文本长度、注意力和算力之间找到最佳平衡点,是大模型厂商面临的挑战。

虽然长文本技术仍有优化空间,但它代表了大模型向更高层次发展的趋势,有望推动AI在更多专业领域实现突破性应用。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 6
  • 分享
评论
0/400
空投疯子老王vip
· 4小时前
token还在涨啊老铁们
回复0
GasGuzzlervip
· 07-13 18:22
40w token...算力要爆炸了吧
回复0
无聊饭团vip
· 07-13 18:22
40w...离人类距离又近了点
回复0
digital_archaeologistvip
· 07-13 18:22
算力警告!
回复0
AltcoinOraclevip
· 07-13 18:18
令人着迷的是算法复杂度如何随着40万标记的增长而变化……说实话,明显向上破位于传统的注意力模式。
查看原文回复0
DeFi小灰灰vip
· 07-13 17:56
长这么多哪看得完?!
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)