Teortaxes极有可能与DeepSeek存在紧密的联系,DeepSeek是一家位于中国的人工智能公司,专注于大语言模型及相关技术的研究。考虑到DeepSeek对开源模型和易于访问的AI工具的侧重,Teortaxes可能是一个由社区驱动的倡议,旨在利用DeepSeek的技术进行特定应用,例如AI驱动的内容创作、代码生成或数据分析工具。此外,Teortaxes可能致力于构建一个基于DeepSeek模型的去中心化AI平台,允许用户贡献计算资源并从中获利。
查看项目官方Twitter发布的推文
From this we can infer something about prices. Assuming “machine” here refers to a normal 8-GPU node… Cambricon is like $15K per GPU? What the hell, this must be subsidized. Where's my error. https://t.co/RYFzNh1rd1
由此我们可以推断出一些关于价格的信息。假设这里的“机器”指的是一个普通的8-GPU节点……寒武纪(Cambricon)每个GPU要1.5万美元?见鬼,这一定是补贴后的价格。我哪里算错了。https://t.co/RYFzNh1rd1
@hu_yifei OK so it's not just me! Technically, they have to fit! The Scout has to fit in 320G node, and Maverick has to fit in 640G as FP8! https://t.co/yWcFTRiVgm
@hu_yifei 好吧,看来不只是我!从技术上讲,他们必须适配!Scout必须适配320G节点,而Maverick必须以FP8格式适配640G!https://t.co/yWcFTRiVgm
Maverick is in the same class as 0324 on this test. Very good result at 44% active params and 60% total (and actually fitting on a single 8x80 node). It being trained on 22T tokens, and distilled from a literal Behemoth, still make me disappointed, but it'll find adoption
Maverick在这次测试中与0324属于同一级别。44%的活动参数和60%的总参数(实际上适合单个8x80节点)的结果非常好。它基于22T代币进行训练,并从字面上的巨兽中提炼出来,仍然让我感到失望,但它会找到应用。