大数据文摘授权转载自夕小瑶的卖萌屋
作者:Severus
今年清明节,Google搞了一点小动作,在arxiv上放出了自己的新工作,PaLM[1](PaLM:ScalingLanguageModelingwithPathways)。
这是自去年,JeffDean谈论下一代AI,提出Pathways[2]架构之后,其第一次秀出了自己的成绩。既然秀肌肉的一件工作,我们不必怀疑,其在各大不同的基准任务上,能展现出什么样的非凡能力。
论文发出之后,各家大V迅速跟进,各种解读铺天盖地,关于它是什么样子的,它的实现细节,它展现了什么样的效果,已不必赘述。今天,我想要谈一谈,Pathways及其背后的思想,可能会开启什么新的纪元?为什么JeffDean认为它是下一代的AI架构?
缘起:SwtichTransformer
事情还是要回到去年1月份。彼时以GPT-3为首,预训练语言模型界刮起了大模型之风。当然,这股风浪到现在也没有过去,千亿级别的大模型,仍然是你方唱罢我登场。而在那个时候,Google一篇SwitchTransformers[3]引起了我的注意。说来惭愧,当时我注意到这篇工作,还是因为某