DeepSeek智能时代的全面到来和人机协作的新常态孙凌云教授计算机科学与技术学院2025年2月一、智能演变二、人机协作三、产业现状四、教育成长GPT训练数据规模史无前例维基杂志Reddit其他百科期刊链接数据从2018年的GPT-1书籍Common总计到2020年的GPT-3,11.44.6模型预训练数据量从4.6GB增加到了45TBCrawl4.645TB相当于三千万本《西游记》2140GPT-140753GPT-2GPT-310150570ThePilev1611824463227167825主要模型数据集包括:M11eBgatron-11.44.638107161-维基百科数据集(庞大的客观知识)-书籍(故事讲述能力与反应)MT-NLG6.411877639831271374-杂志期刊(语言生成的严谨)-Github代码等其他数据(逻辑推理)Gopher12.52100164.43450482310550表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的...
发表评论取消回复