A Revolução da Engenharia da IA: Do Transformer à Batalha dos Cem Modelos
No mês passado, houve uma "guerra dos animais" no mundo da IA. De um lado estão os modelos da série Llama, lançados pela Meta, que são muito populares entre os desenvolvedores devido à sua característica de código aberto. Do outro lado está um grande modelo chamado Falcon, desenvolvido pelo Instituto de Pesquisa em Inovação Tecnológica dos Emirados Árabes Unidos. Esses dois modelos têm alternado no topo da tabela de LLMs de código aberto.
Curiosamente, o objetivo dos Emirados Árabes Unidos ao participar da competição de IA é "desestabilizar os jogadores principais". Pouco depois, o ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado como uma das "100 pessoas mais influentes na área de IA" pela revista Time.
Hoje, o campo da IA entrou na fase do "embate de cem escolas". Muitos países e empresas estão desenvolvendo seus próprios modelos de linguagem de grande escala. Somente na região do Golfo, já há mais de um jogador envolvido nisso. Este fenômeno levou alguns profissionais da indústria a refletir, considerando que até mesmo o campo da tecnologia avançada está experimentando uma "batalha de cem modelos".
O Transformer devora o mundo
O florescimento atual dos grandes modelos deve-se ao artigo "Attention Is All You Need" publicado em 2017. O algoritmo Transformer proposto nesse artigo tornou-se o catalisador desta onda de entusiasmo pela IA.
Antes do surgimento do Transformer, "ensinar máquinas a ler" era um desafio acadêmico reconhecido. Redes neurais primitivas tinham dificuldade em entender o contexto. Em 2014, a aparição das redes neurais recorrentes (RNN) resolveu esse problema até certo ponto, mas suas características de computação sequencial limitaram a capacidade de processar grandes volumes de dados.
O Transformer, através de inovações como codificação de posição e computação paralela, não apenas aumentou a eficiência do treinamento, mas também melhorou a capacidade de entender o contexto. Isso fez com que a IA passasse da pesquisa teórica para a prática de engenharia, abrindo caminho para a era dos grandes modelos.
Com a popularização do Transformer, a velocidade de inovação dos algoritmos subjacentes desacelerou, e elementos de engenharia como engenharia de dados e escala de poder computacional tornaram-se cruciais na competição de IA. Isso também significa que qualquer empresa com uma certa capacidade técnica pode tentar desenvolver grandes modelos.
A muralha construída sobre vidro
Atualmente, a "Batalha dos Modelos" tornou-se uma realidade. Segundo relatos, até julho deste ano, o número de grandes modelos na China já atingiu 130, superando os 114 dos Estados Unidos. Além da China e dos Estados Unidos, países como Japão, Índia e Coreia do Sul também lançaram seus grandes modelos locais.
No entanto, a facilidade de entrada não significa que todos possam se tornar gigantes na era da IA. Tomando a competição entre Falcon e Llama como exemplo, embora o Falcon esteja em uma posição de liderança em alguns rankings, é difícil afirmar o quão grande foi o impacto sobre a Meta. Para os grandes modelos de código aberto, a comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva. A Meta ocupa uma posição privilegiada nesse aspecto devido ao seu gene de mídia social e à sua estratégia de código aberto.
Além disso, a maioria dos grandes modelos ainda apresenta uma diferença significativa de desempenho em relação ao GPT-4. Nos testes recentes do AgentBench, o GPT-4 obteve uma pontuação de 4,41, liderando de longe, enquanto o segundo colocado, Claude, ficou com apenas 2,77, e a maioria dos modelos de código aberto obteve pontuações em torno de 1.
Essa diferença se deve às equipes de cientistas de alto nível das principais empresas de IA e à experiência acumulada ao longo do tempo. Assim, a principal vantagem competitiva dos grandes modelos pode estar na construção de ecossistemas ( na rota de código aberto ) ou na capacidade pura de raciocínio ( na rota de código fechado ).
Ponto de âncora de valor
Apesar da onda de entusiasmo em torno da IA, atualmente não são muitas as empresas que conseguem lucrar com isso. O alto custo de computação tornou-se um grande obstáculo para o desenvolvimento do setor. Estima-se que os gigantes da tecnologia em todo o mundo gastem anualmente até 200 bilhões de dólares em infraestrutura para grandes modelos, enquanto a receita gerada por esses modelos chega a apenas 75 bilhões de dólares, existindo assim uma enorme lacuna.
Mesmo empresas líderes do setor, como a Microsoft e a Adobe, enfrentam desafios em relação à precificação de serviços de IA e ao controle de custos. Para a maioria dos grandes modelos com parâmetros em larga escala, o principal cenário de aplicação ainda se concentra nas funções de chat.
Com o aumento da concorrência homogeneizada e a popularização dos modelos de código aberto, o modelo de negócio que depende apenas da oferta de serviços de grandes modelos pode enfrentar uma pressão maior. No futuro, o verdadeiro valor da tecnologia de IA pode estar mais refletido na capacidade de aplicação em cenários concretos e na resolução de problemas práticos.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
9 Curtidas
Recompensa
9
5
Compartilhar
Comentário
0/400
JustHereForAirdrops
· 11h atrás
Fritou até ficar uma bagunça total.
Ver originalResponder0
SerumSquirter
· 11h atrás
É uma batalha de queimar dinheiro, quem tiver mais dinheiro ganha.
Ver originalResponder0
WhaleStalker
· 11h atrás
Os investidores estão em conflito, os investidores de retalho têm dificuldade em suportar.
Ver originalResponder0
GasDevourer
· 11h atrás
Quem ainda consegue queimar mais que o custo do Poder de computação?
Ver originalResponder0
ZenMiner
· 11h atrás
A guerra de queimar dinheiro está a correr bem, os ricos realmente sabem como jogar.
A competição entre grandes modelos de IA se intensifica: da transformação à revolução da engenharia na batalha dos cem modelos.
A Revolução da Engenharia da IA: Do Transformer à Batalha dos Cem Modelos
No mês passado, houve uma "guerra dos animais" no mundo da IA. De um lado estão os modelos da série Llama, lançados pela Meta, que são muito populares entre os desenvolvedores devido à sua característica de código aberto. Do outro lado está um grande modelo chamado Falcon, desenvolvido pelo Instituto de Pesquisa em Inovação Tecnológica dos Emirados Árabes Unidos. Esses dois modelos têm alternado no topo da tabela de LLMs de código aberto.
Curiosamente, o objetivo dos Emirados Árabes Unidos ao participar da competição de IA é "desestabilizar os jogadores principais". Pouco depois, o ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado como uma das "100 pessoas mais influentes na área de IA" pela revista Time.
Hoje, o campo da IA entrou na fase do "embate de cem escolas". Muitos países e empresas estão desenvolvendo seus próprios modelos de linguagem de grande escala. Somente na região do Golfo, já há mais de um jogador envolvido nisso. Este fenômeno levou alguns profissionais da indústria a refletir, considerando que até mesmo o campo da tecnologia avançada está experimentando uma "batalha de cem modelos".
O Transformer devora o mundo
O florescimento atual dos grandes modelos deve-se ao artigo "Attention Is All You Need" publicado em 2017. O algoritmo Transformer proposto nesse artigo tornou-se o catalisador desta onda de entusiasmo pela IA.
Antes do surgimento do Transformer, "ensinar máquinas a ler" era um desafio acadêmico reconhecido. Redes neurais primitivas tinham dificuldade em entender o contexto. Em 2014, a aparição das redes neurais recorrentes (RNN) resolveu esse problema até certo ponto, mas suas características de computação sequencial limitaram a capacidade de processar grandes volumes de dados.
O Transformer, através de inovações como codificação de posição e computação paralela, não apenas aumentou a eficiência do treinamento, mas também melhorou a capacidade de entender o contexto. Isso fez com que a IA passasse da pesquisa teórica para a prática de engenharia, abrindo caminho para a era dos grandes modelos.
Com a popularização do Transformer, a velocidade de inovação dos algoritmos subjacentes desacelerou, e elementos de engenharia como engenharia de dados e escala de poder computacional tornaram-se cruciais na competição de IA. Isso também significa que qualquer empresa com uma certa capacidade técnica pode tentar desenvolver grandes modelos.
A muralha construída sobre vidro
Atualmente, a "Batalha dos Modelos" tornou-se uma realidade. Segundo relatos, até julho deste ano, o número de grandes modelos na China já atingiu 130, superando os 114 dos Estados Unidos. Além da China e dos Estados Unidos, países como Japão, Índia e Coreia do Sul também lançaram seus grandes modelos locais.
No entanto, a facilidade de entrada não significa que todos possam se tornar gigantes na era da IA. Tomando a competição entre Falcon e Llama como exemplo, embora o Falcon esteja em uma posição de liderança em alguns rankings, é difícil afirmar o quão grande foi o impacto sobre a Meta. Para os grandes modelos de código aberto, a comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva. A Meta ocupa uma posição privilegiada nesse aspecto devido ao seu gene de mídia social e à sua estratégia de código aberto.
Além disso, a maioria dos grandes modelos ainda apresenta uma diferença significativa de desempenho em relação ao GPT-4. Nos testes recentes do AgentBench, o GPT-4 obteve uma pontuação de 4,41, liderando de longe, enquanto o segundo colocado, Claude, ficou com apenas 2,77, e a maioria dos modelos de código aberto obteve pontuações em torno de 1.
Essa diferença se deve às equipes de cientistas de alto nível das principais empresas de IA e à experiência acumulada ao longo do tempo. Assim, a principal vantagem competitiva dos grandes modelos pode estar na construção de ecossistemas ( na rota de código aberto ) ou na capacidade pura de raciocínio ( na rota de código fechado ).
Ponto de âncora de valor
Apesar da onda de entusiasmo em torno da IA, atualmente não são muitas as empresas que conseguem lucrar com isso. O alto custo de computação tornou-se um grande obstáculo para o desenvolvimento do setor. Estima-se que os gigantes da tecnologia em todo o mundo gastem anualmente até 200 bilhões de dólares em infraestrutura para grandes modelos, enquanto a receita gerada por esses modelos chega a apenas 75 bilhões de dólares, existindo assim uma enorme lacuna.
Mesmo empresas líderes do setor, como a Microsoft e a Adobe, enfrentam desafios em relação à precificação de serviços de IA e ao controle de custos. Para a maioria dos grandes modelos com parâmetros em larga escala, o principal cenário de aplicação ainda se concentra nas funções de chat.
Com o aumento da concorrência homogeneizada e a popularização dos modelos de código aberto, o modelo de negócio que depende apenas da oferta de serviços de grandes modelos pode enfrentar uma pressão maior. No futuro, o verdadeiro valor da tecnologia de IA pode estar mais refletido na capacidade de aplicação em cenários concretos e na resolução de problemas práticos.