1400 RISC
A Untether AI no Canadá desenvolveu um dispositivo AI com mais de 1400 processadores RISC-V chamado Boqueria para computação 'na memória'.
O Boqueria, discutido na HotChips Conference hoje, é construído no processo de 7 nm da TSMC com 238 MB de SRAM. O dispositivo tem um desempenho de 2 PetaFlops para tipos de dados AI FP8 de 8 bits com uma figura de potência de 30 TFLOPs/W que vem de manter o processamento mais próximo dos núcleos AI com 729 bancos de memória RISC-V duplos.
Como a computação na memória é significativamente mais eficiente em termos de energia do que as arquiteturas tradicionais de von Neumann, mais TFlops podem ser executados para um determinado envelope de energia. Com a introdução dos dispositivos runAI em 2020, o Untether AI obteve um nível de eficiência energética de 8 TOPs/W para o tipo de dados INT8.
A arquitetura speedAI usada no Boqueria melhora isso, fornecendo 30 TFlops/W. Essa eficiência energética é um produto da arquitetura de computação na memória de segunda geração, mais de 1.400 processadores RISC-V otimizados com instruções personalizadas, fluxo de dados com eficiência energética e a adoção de um novo tipo de dados FP8, o que ajuda a quadruplicar a eficiência em comparação com o dispositivo runAI da geração anterior.
Cada banco de memória da arquitetura speedAI possui 512 elementos de processamento com conexão direta à SRAM dedicada. Esses elementos de processamento suportam os tipos de dados INT4, FP8, INT8 e BF16, juntamente com circuitos de detecção zero para conservação de energia e suporte para dispersão estruturada 2:1.
Organizado em 8 linhas de 64 elementos de processamento, cada linha tem seu próprio controlador de linha dedicado e funcionalidade de redução com fio para permitir flexibilidade na programação e computação eficiente das funções de rede do transformador, como Softmax e LayerNorm. As linhas são gerenciadas por dois processadores RISC-V com mais de 20 instruções personalizadas projetadas para aceleração de inferência. A flexibilidade do banco de memória permite que ele se adapte a uma variedade de arquiteturas de redes neurais, incluindo redes convolucionais, transformadoras e de recomendação, bem como modelos de álgebra linear
O primeiro membro da família, o speedAI240, oferece 2 PetaFlops de performance FP8 e 1 PetaFlop de performance BF16. Isso se traduz em maior desempenho, por exemplo, executando a estrutura BERT em mais de 750 consultas por segundo por watt (qps/w), 15 vezes maior do que o estado da arte atual das principais GPUs.
A pesquisa da Untether AI determinou que dois formatos FP8 diferentes forneciam a melhor combinação de precisão, alcance e eficiência. Uma versão de 4 mantissas (FP8p para "precisão") e uma versão de 3 mantissas (FP8r para "alcance") forneceram a melhor precisão e taxa de transferência para inferência em uma variedade de redes diferentes. Para redes convolucionais como ResNet-50 e redes de transformadores como BERT-Base, a implementação do Untether AI de FP8 resulta em menos de 1/10 de 1 por cento de perda de precisão em comparação com o uso de tipos de dados BF16, com um aumento de quatro vezes na taxa de transferência e eficiência energética .
O dispositivo speedAI240 foi projetado para escalar para modelos grandes. A arquitetura de memória é multinível, com 238 MB de SRAM dedicados aos elementos de processamento, oferecendo 1 petabyte/s de largura de banda de memória, quatro blocos de rascunho de 1 MB e duas portas LPDDR5 de 64 bits, fornecendo até 32 GB de DRAM externa.
Existem 16 faixas de PCIe Gen5 para conectividade de host a 63 GB/s com três portas PCIe Gen5 x8 para conectividade chip a chip e placa a placa, cada uma fornecendo 31,5 GB/s.
“Os méritos da computação na memória foram comprovados com o dispositivo runAI de primeira geração, e a arquitetura speedAI de segunda geração aprimora a eficiência energética, o rendimento, a precisão e a escalabilidade de nossa oferta”, disse Arun Iyengar, CEO da Untether AI. "Os dispositivos speedAI oferecem uma capacidade incomparável com qualquer outra oferta de inferência no mercado."
A Untether AI possui um Kit de Desenvolvimento de Software (SDK) chamado imAIgine, que fornece um caminho para a execução de redes em alto desempenho, com quantização de botão de pressão, otimização, alocação física e particionamento de vários chips. O imAIgine SDK também fornece um amplo kit de ferramentas de visualização, simulador de precisão de ciclo e uma API de tempo de execução facilmente integrada e já está disponível.