1. DeepSeek 有好口碑的原因在于是第一个把复现 MOE、01等发出来,胜在做的早,但能不能做的最好,空间还很大,和新挑战在于资源有限,只能把有限的资源放在最亮眼的地方,但后续可能没有精力去做得更好,比如MOE,这个团队的research 能力、团队文化还是很好的,如果再给10、20 万张卡,可能能做出更好的事情。
2.DeekSeek 从 preview 到正式发布这段时间,长上下文能力提升很快。DeepSeek的 Longcontext 10K用非常常规的方法就能够做到。
……
声明:本站所有文章,如无特殊说明或标注,均为本站整理发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。本站内容均收集自网络,基于免费分享的目的,如若本站内容侵犯了原著者的合法权益,可联系我们进行删除处理。