毕业论文
您现在的位置: 框架 >> 框架发展 >> 正文 >> 正文

会员风采南京理工大学宫辰

来源:框架 时间:2022/6/4
怎么确诊是白癜风 https://m-mip.39.net/disease/mip_7585648.html
1

基本信息

姓名宫辰工作单位南京理工大学职务

教授、博导

“社会安全信息感知与系统”工信部重点实验室副主任

研究方向

弱监督学习

2

人物简介

宫辰入选南京理工大学“青年拔尖人才选聘项目”,现任南京理工大学计算机科学与工程学院教授、博导。于年获得华东理工大学学士学位,并于年获得上海交通大学和悉尼科技大学双博士学位。其研究方向主要为弱监督机器学习及模式识别。已在ACM/IEEETrans及CCFA类会议上发表70余篇学术论文,主要包括TPAMI,TNNLS,TIP,ICML,NeurIPS,CVPR,AAAI,IJCAI等,其中包括4篇ESI高被引论文。谷歌引用余次,h指数为29。共有7项发明专利获得授权。目前担任SCI期刊NeuralProcessingLetters副编委,AIJ,IJCV,JMLR,IEEETPAMI,TNNLS,TIP等20余家国际权威期刊审稿人,并受邀担任ICML,NeurIPS,ICLR,CVPR,ICCV,AAAI,IJCAI,ICDM,CIKM,AISTATS等多个国际会议的(S)PCmember或审稿人。主持国家自然科学基金面上项目、青年项目、江苏省自然科学基金面上项目等。曾获吴文俊人工智能优秀青年奖、中国科协“青年人才托举工程”、中国人工智能学会“优秀博士学位论文”奖、上海市自然科学二等奖、上海交通大学“优秀博士学位论文”奖、江苏省“六大人才高峰”、江苏省“双创博士”、江苏省科协“青年人才托举工程”等。

3

亮点工作

围绕弱监督学习,针对标签数量不足、标签类别存在缺失、标签存在错误的常见情形,分别对半监督学习(semi-supervisedlearning)、PU学习(positiveandunlabeledlearning)及标签噪声学习(labelnoiselearning)展开了研究。

(1)半监督学习。传统全监督机器学习算(如SVM、DNN等)的训练过程依赖于大量的已标记样本。然而,在很多实际应用(如辅助疾病诊断、军事目标识别等)中,由于样本标注所需的人力、财力、时间等代价很高,我们往往很难获得充足的带标签样本做算法训练。因此,我们对半监督学习展开了研究,借助少量的已标记样本,同时结合大量的未标记样本进行模型训练,使算法获得令人满意的学习性能。特别地,本人受人类学习过程的启发,提出了“导师-学生交互式半监督学习”的框架。具体而言,该框架将传统的半监督学习算法视为“学生”,进一步引入“老师”这一角色,定义了学生“学习效果反馈”函数,使得学生的学习过程在“老师”的指导下按照由易到难的顺序开展,进而构建了机器导学(machineteaching)和机器学习(machinelearning)协同的完整闭环学习框架。理论证明,引入了老师后可以降低学生的分类函数空间的Rademacher复杂度,以及学生在迭代学习过程中的累积误差,因此能够帮助学生获得更好的学习效果。进一步,通过引入多个老师,我们将“单老师+单学生”的基本框架进行拓展以适用于多标记学习、多模态学习及集成学习。具体地,不同老师分别从不同角度“教授”学生,通过挖掘老师的“个性”和它们之间的“共性”,综合设计出最优的教学策略,使学生在所有老师的共同指导下获得优异的学习性能。所提出的半监督学习方法在图像识别任务上,仅标注0.3%的样本,识别率便可提升约6%,且收敛速度提升了7.5倍。相关工作发表在TIP、TNNLS、TCYB、CVPR、NeurIPS、AAAI、IJCAI等权威期刊和会议上;应用于航天八院的实际工业项目中;荣获中国人工智能学会优秀博士学位论文奖、吴文俊人工智能优秀青年奖、上海市自然科学二等奖等。

(2)PU学习。PU学习是指训练样本仅有正样本和未标记样本,而没有已标记的负样本。其中,未标记样本中含正样本和负样本,但是它们的真实标签未知。近几年,PU学习被广泛应用于特定目标检测、异常点检测等问题中。我们主要从数据分布的角度出发,研究了“数据分布敏感的PU学习”。一方面,为解决无显式负样本的难题,并同时挖掘未标记样本携带的隐含信息,我们将传统的损失函数(如squaredloss、hingeloss等)分解为标签无关项和标签有关项,并通过最小化标签有关项的上界及借助未标记样本均值获得了标签有关项的无偏估计。另一方面,为了充分利用数据的聚类及流形等分布特征,使不同类别的样本获得更有区分性的表示,我们基于经验风险最小化框架,提出了非凸的“帽状损失函数”以及“标签矫正正则项”以达到“大间隔”的分类效果;提出了基于期望最大化的多流形挖掘、基于流形切平面的歧义点分类、基于概率图模型的特征-标签因果挖掘等多种方法。于是,正样本和未标记样本的利用价值可以被最大化,从而有助于获得准确、可靠的分类函数。在异常行为检测任务中,所提方法的检测准确率达到95.2%。相关工作发表在TPAMI、TNNLS、TCSVT、ICML、IJCAI等权威期刊和会议上;应用于CCF-腾讯犀牛鸟的实际项目中;荣获中国科协青年人才托举工程等。

(3)标签噪声学习。实际数据的标签往往含有错误和噪声。比如,当需要人工大量标注样本时,标注人员往往会因为疲劳或粗心导致标注出现错误。对于一些专业性比较强的领域,也有可能因为操作人员的知识经验不足或操作不当而造成标注错误。因此,我们对标签噪声学习展开了研究,希望算法在有标注错误的训练集上仍能输出鲁棒、准确的分类模型。具体地,我们认为噪声标签的产生与真实类别标签及样本特征都有密切的关系。首先,我们将样本特征视为边缘信息,使用标签矩阵恢复的手段修正潜在的错误标签,并采用低秩、组稀疏等正则项挖掘标签噪声的结构化特征。其次,我们使用图模型将真实标签、噪声标签、样本特征明确建立关系,给出了样本的“标签易错概率”计算方法,清晰地刻画出标签噪声的生成过程,进而使用EM算法求解一极大似然估计问题,从而同时估计出样本的准确标签及分类器参数。最后,我们研究了多个噪声标注者同时标注的众包情形,为解决标注者个体存在噪声及标注者之间存在分歧的难题,分别提出了基于聚类的标签修正及基于标注者质量估计的标签融合。在图像识别任务中,所提方法在标签噪声率高达60%时,仍能达到88.9%的识别率。相关工作发表在TPAMI、TNNLS、NeurIPS、AAAI、IJCAI等权威期刊和会议上;应用于支付宝与支付安全相关的工业项目中;并获得CVPR’21弱监督目标定位竞赛全球冠军。4

人物专访

(1)请问您为什么选择弱监督学习作为您的研究方向?其实弱监督学习是一个非常经典的机器学习问题,前人也已经在这方面积累了非常丰富的研究成果。我研究弱监督学习主要是因为在当今大数据的背景下,很多新的弱监督问题不断涌现,面对大数据如何减小样本标注和模型训练的成本更是成为一个亟待解决的问题。打个比方,现在很多工业界的项目团队面临一个新的任务时,往往就是不惜成本地搜集大量数据,请很多数据标注员做精细标注,然后再训练一个大的深度神经网络;提升算法性能往往也是靠搜集和标注更多的训练样本来实现。因此,项目团队中数据标注员的数量往往比算法工程师的数量还要多。在我看来,这么做会很大程度上增大产品的成本,人工智能方法本身的“智能性”也没有被充分体现。另外,我加入南京理工大学后,发现很多军事上的实际问题根本无法获得大量准确的标签。因此,如何尽可能地降低模型训练对数据数量和质量的依赖,从而节省成本和开销,就成为我非常

转载请注明:http://www.0431gb208.com/sjszyzl/474.html

  • 上一篇文章:
  • 下一篇文章: 没有了