Новая горячая точка в соревновании больших моделей: скачок длины текста от 4k до 400k токенов
Технология больших моделей развивается с поразительной скоростью, способность обработки текста выросла с первоначальных 4k токенов до 400k токенов, и, похоже, способность работы с длинными текстами стала новым стандартом для производителей больших моделей.
За границей OpenAI многократно обновлял GPT-3.5 и GPT-4, увеличив длину контекста до 16k и 32k токенов соответственно. Его конкурент Anthropic резко расширил длину контекста до 100k токенов. LongLLaMA даже расширил длину контекста до 256k токенов и даже больше.
В стране стартап-компания представила продукт умного помощника, который поддерживает ввод текста объемом около 400k токенов. Технология LongLoRA, разработанная совместно Гонконгским университетом и MIT, позволяет увеличить длину текста для модели 7B до 100k токенов, а для модели 70B — до 32k токенов.
В настоящее время многие ведущие компании и исследовательские учреждения как в стране, так и за границей сосредоточили внимание на расширении длины контекста как ключевом направлении обновления. Большинство из этих компаний являются звёздными предприятиями, которые пользуются популярностью на капитальном рынке, их объемы финансирования и оценки постоянно бьют рекорды.
Что означает сосредоточение компаний на больших моделях на технологии длинного текста? На первый взгляд, это увеличение длины входного текста и способности к чтению, от короткой статьи до длинного романа. Более глубокий смысл заключается в продвижении применения больших моделей в таких профессиональных областях, как финансы, юстиция, научные исследования и т.д., удовлетворяя потребности этих областей в обработке длинных документов.
Однако длина текста не всегда лучше. Исследования показывают, что поддержка модели более длинного контекстного ввода не всегда означает повышение эффективности, ключевым моментом является то, как модель использует контент контекста. Тем не менее, в настоящее время исследования в области длины текста все еще не достигли предела, 400 тысяч токенов могут быть только началом.
Технология длинных текстов привлекает внимание, потому что она может решить некоторые проблемы ранних моделей, такие как забывание важной информации в сценах с виртуальными персонажами, ограниченный анализ и генерация в специализированных областях. В то же время длинные тексты также являются ключевой технологией для продвижения будущего развития Agent и нативных приложений AI.
Длинные тексты могут помочь модели более точно понять семантику, снизить двусмысленность и повысить точность рассуждений, предоставив больше контекста и деталей. Это знаменует собой переход больших моделей от LLM к Long LLM.
Технология длинных текстов демонстрирует множество преимуществ в практическом применении: она может быстро анализировать ключевые моменты длинных статей, извлекать ключевую информацию из финансовых отчетов и реализовывать вопросы и ответы на основе целых книг; в области кодирования она может напрямую преобразовывать статьи в код; также она может реализовывать функции персонализированных длинных диалогов, такие как ролевые игры. Эти функции способствуют развитию диалоговых роботов в более профессиональном, персонализированном и глубоком направлении.
Однако технологии длинных текстов сталкиваются с дилеммой "невозможного треугольника": существует взаимное ограничение между длиной текста, вниманием и вычислительной мощностью. Чем длиннее текст, тем сложнее сосредоточить внимание, а обработка длинных текстов требует больше вычислительной мощности. Эта проблема возникает из-за того, что большинство моделей используют структуру Transformer, вычислительная сложность механизма самовнимания которого растет квадратично с увеличением длины контекста.
В настоящее время существует три основных решения: использование внешних инструментов для вспомогательной обработки, оптимизация вычислений механизма самовнимания, оптимизация самой модели. У каждого из решений есть свои плюсы и минусы, и найти наилучший баланс между длиной текста, вниманием и вычислительной мощностью является вызовом, с которым сталкиваются производители больших моделей.
Хотя технологии длинных текстов все еще имеют пространство для оптимизации, они представляют собой тенденцию к более высокому уровню развития больших моделей и могут способствовать прорывным приложениям ИИ в большем количестве профессиональных областей.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
11 Лайков
Награда
11
6
Поделиться
комментарий
0/400
AirdropHunterWang
· 15ч назад
токен все еще в росте, приятели
Посмотреть ОригиналОтветить0
GasGuzzler
· 07-13 18:22
40w токен... Вычислительная мощность, должно быть, взорвется.
Посмотреть ОригиналОтветить0
BoredRiceBall
· 07-13 18:22
40w...человечество стало чуть ближе
Посмотреть ОригиналОтветить0
digital_archaeologist
· 07-13 18:22
Вычислительная мощность警告!
Посмотреть ОригиналОтветить0
AltcoinOracle
· 07-13 18:18
удивительно, как сложность алгоритма масштабируется на 400k токенов... ясный пробой вверх от наследственных паттернов внимания, если честно
Длинна текста большого модели преодолела 400000 токенов, технологии длинного текста стали новым направлением в ИИ.
Новая горячая точка в соревновании больших моделей: скачок длины текста от 4k до 400k токенов
Технология больших моделей развивается с поразительной скоростью, способность обработки текста выросла с первоначальных 4k токенов до 400k токенов, и, похоже, способность работы с длинными текстами стала новым стандартом для производителей больших моделей.
За границей OpenAI многократно обновлял GPT-3.5 и GPT-4, увеличив длину контекста до 16k и 32k токенов соответственно. Его конкурент Anthropic резко расширил длину контекста до 100k токенов. LongLLaMA даже расширил длину контекста до 256k токенов и даже больше.
В стране стартап-компания представила продукт умного помощника, который поддерживает ввод текста объемом около 400k токенов. Технология LongLoRA, разработанная совместно Гонконгским университетом и MIT, позволяет увеличить длину текста для модели 7B до 100k токенов, а для модели 70B — до 32k токенов.
В настоящее время многие ведущие компании и исследовательские учреждения как в стране, так и за границей сосредоточили внимание на расширении длины контекста как ключевом направлении обновления. Большинство из этих компаний являются звёздными предприятиями, которые пользуются популярностью на капитальном рынке, их объемы финансирования и оценки постоянно бьют рекорды.
Что означает сосредоточение компаний на больших моделях на технологии длинного текста? На первый взгляд, это увеличение длины входного текста и способности к чтению, от короткой статьи до длинного романа. Более глубокий смысл заключается в продвижении применения больших моделей в таких профессиональных областях, как финансы, юстиция, научные исследования и т.д., удовлетворяя потребности этих областей в обработке длинных документов.
Однако длина текста не всегда лучше. Исследования показывают, что поддержка модели более длинного контекстного ввода не всегда означает повышение эффективности, ключевым моментом является то, как модель использует контент контекста. Тем не менее, в настоящее время исследования в области длины текста все еще не достигли предела, 400 тысяч токенов могут быть только началом.
Технология длинных текстов привлекает внимание, потому что она может решить некоторые проблемы ранних моделей, такие как забывание важной информации в сценах с виртуальными персонажами, ограниченный анализ и генерация в специализированных областях. В то же время длинные тексты также являются ключевой технологией для продвижения будущего развития Agent и нативных приложений AI.
Длинные тексты могут помочь модели более точно понять семантику, снизить двусмысленность и повысить точность рассуждений, предоставив больше контекста и деталей. Это знаменует собой переход больших моделей от LLM к Long LLM.
Технология длинных текстов демонстрирует множество преимуществ в практическом применении: она может быстро анализировать ключевые моменты длинных статей, извлекать ключевую информацию из финансовых отчетов и реализовывать вопросы и ответы на основе целых книг; в области кодирования она может напрямую преобразовывать статьи в код; также она может реализовывать функции персонализированных длинных диалогов, такие как ролевые игры. Эти функции способствуют развитию диалоговых роботов в более профессиональном, персонализированном и глубоком направлении.
Однако технологии длинных текстов сталкиваются с дилеммой "невозможного треугольника": существует взаимное ограничение между длиной текста, вниманием и вычислительной мощностью. Чем длиннее текст, тем сложнее сосредоточить внимание, а обработка длинных текстов требует больше вычислительной мощности. Эта проблема возникает из-за того, что большинство моделей используют структуру Transformer, вычислительная сложность механизма самовнимания которого растет квадратично с увеличением длины контекста.
В настоящее время существует три основных решения: использование внешних инструментов для вспомогательной обработки, оптимизация вычислений механизма самовнимания, оптимизация самой модели. У каждого из решений есть свои плюсы и минусы, и найти наилучший баланс между длиной текста, вниманием и вычислительной мощностью является вызовом, с которым сталкиваются производители больших моделей.
Хотя технологии длинных текстов все еще имеют пространство для оптимизации, они представляют собой тенденцию к более высокому уровню развития больших моделей и могут способствовать прорывным приложениям ИИ в большем количестве профессиональных областей.