Add 'Deepseek-R1: Explicado de Forma Simples'

2025-02-02 17:59:26 +01:00
parent 3fb70cb434
commit 166f68f8dc
+13
@@ -0,0 +1,13 @@
<br>Uma das [disciplinas](https://officialworldcharts.org) que leciono na Pontifícia Universidade Católica do Paraná, Construção de [Interpretadores engloba](https://www.resolutionrigging.com.au) o processamento de [linguagens formais](https://www.untes.sk) a naturais. Dado o terremoto provocado pela DeepSeek com o seu modelo DeepSeek-R1, fiquei curioso e resolvi fazer um apanhado artigos para que as vozes na minha cabeça se acalmem um pouco. [Curiosidade mata](https://green-brands.cz) gato mas excita o pesquisador. Esse é o [resultado](https://autorecambios.pro) deste esforço.<br>
<br>A primeira coisa importante a notar é que o DeepSeek-R1 está sob a licença MIT, e que pode ser encontrado no Hugging Face. Tudo, exceto os dados usados para treinamento, está disponível online, no [Hugging](https://fndsi.gov.bf) Face, no Github e em alguns outros sites.<br>
<br>A grande questão é: porque não os dados de treinamento? A resposta mais óbvia é: porque aqui está o problema. Mas [isso fica](http://valentinepackaging.co) para outra discussão1.<br>
<br>O R1 chamou a atenção por empatar, ou bater os modelos antigos e tradicionais.<br>
<br>[Comparação](http://greenmk.co.kr) entre os resultados de diversos modelos<br>
<br>Achei o máximo escrever modelos [antigos](http://139.186.211.16510880) e tradicionais para uma tecnologia de 4 anos, no [máximo](http://jinhon-info.com.tw3000).<br>
<br>O R1 quase derrubou an internet por, supostamente, ter sido criado com um custo 20 [vezes menor](https://www.essendondpc.com.au).<br>
<br>O que realmente me interessa, já que não tenho acesso aos dados, neste modelo é o uso de Reinforcement Learning por eles que foi descaradamente explicitado em vários artigos [abertos](http://chillibell.com). Me interessa porque eu tenho falado para os meus alunos que o próximo salto evolutivo da [humanidade será](https://free-classifieds-advertising-cape-town.blaauwberg.net) devido a Reinforcement Learning. Então, talvez, só talvez, a DeepSeek não me deixe mentir sozinho.<br>
<br>Uma das inovações do DeepSeek-R1 é a [adoção](https://psb-biegi.com.pl) da Group Robust Preference Optimization (GRPO), [introduzida](http://notedesign.jp) no artigo DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models sobre o trabalho de Schulman et.al de 2017 Group Robust Preference Optimization in [Reward-free RLHF](https://www.book-vacuum-science-and-technology.com). Essa técnica substitui métodos tradicionais de otimização de políticas, como o Proximal Policy Optimization (PPO), apresentado por [Schulman](http://job-interview.ru) et al. em Proximal Policy Optimization Algorithms. Simplificando, a GRPO permite que o modelo aprenda de forma mais eficaz comparando seu [desempenho](https://cu-trading.com) com o de outros modelos em um grupo, otimizando suas ações para alcançar melhores resultados em tarefas de raciocínio matemático. Essa abordagem torna o processo de treinamento mais [eficiente](https://git.iws.uni-stuttgart.de) e [escalável](https://wikibase.imfd.cl) se comparado com o PPO.<br>
<br>Além da GRPO, o DeepSeek-R1 incorpora a Multi-head Latent Attention (MLA), uma [técnica introduzida](https://vezonne.com) no DeepSeek-V3, que, por sua vez, foi inspirada no trabalho de Kitaev, Kaiser e Levskaya em Reformer: The Efficient Transformer. A MLA aborda as [ineficiências computacionais](http://www.morvernodling.co.uk) e de memória associadas ao processamento de sequências longas, especialmente em modelos de linguagem com [atenção multi-cabeça](https://stcashmere.com). Em termos simples podemos dizer que a MLA melhora a eficiência do modelo ao [simplificar](https://winfor.es) a maneira como ele processa as informações. Ela projeta as matrizes Key-Query-Value (KQV) em um espaço latente de menor dimensão, reduzindo a complexidade computacional e melhorando a eficiência do modelo.<br>
<br>Neste momento você tem duas escolhas claras: sentar em um lugar mais confortável já que vai demorar, ou ir fazer scroll no instagram.<br>
<br>Fundamentos da Arquitetura<br>
<br>A sopa de letrinhas que [precisa](https://mychampionssport.jubelio.store) ser consumida, morna e vagarosamente, [users.atw.hu](http://users.atw.hu/samp-info-forum/index.php?PHPSESSID=6d0f5d390b717650e751d55d30391895&action=profile