伪标签(Pseudo-Labelling)

35 篇文章 3 订阅
订阅专栏

大数据时代中,在推荐、广告领域样本的获取从来都不是问题,似乎适用于小样本学习的伪标签技术渐渐淡出了人们的视野,但实际上在样本及其珍贵的金融、医疗图像、安全等领域,伪标签学习是一把锋利的匕首,简单而有效。

伪标签的定义

伪标签的定义来自于半监督学习,半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。

举个简单的半监督学习例子,我想去训练一个通过胸片图像来诊断是否患有乳腺癌的模型,但是专家标注一张胸片图像要收费,于是我掏空自己的钱包让专家帮我标注了10张胸片,可是我这10张图片又要划分训练集测试集,咋训练看着都要过拟合哇,这可咋办?

聪明的我问了问专家,说不标注的胸片要钱吗?专家一愣,不要钱,随便拿(此处忽略病人隐私的问题,单纯举例子)。于是我掏出1张标注的胸片,换了10张没标注的胸片,在专家还没缓过劲之前先溜了。

回到家里,我就开始了如图所示的半监督学习过程~

img

粗略来讲,伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程。

但实际上,伪标签技术在具体应用的细节上,远没有说的如此简单,那让我们先看一下伪标签技术的具体做法吧。

伪标签的具体用法

伪标签技术的使用自由度非常高,在这里我们介绍最常用的也是最有效的三种,对于某些特殊场景,可能有更花哨的方法,这里希望能抛砖引玉,为大家拓宽一下视野。

入门版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测,得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

img

进阶版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测,得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

5. 将M替换为M’,重复以上步骤直至模型效果不出现提升

img

创新版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测,得出预测概率P

3. 将模型损失函数改为Loss = loss(labeled_data) + alpha*loss(unlabeled_data)

4. 使用有标记数据以及伪标签数据训练新模型M’

*loss(unlabeled_data)*

4. 使用有标记数据以及伪标签数据训练新模型M’

img

深度学习技巧应用9-模型训练中学习率的调整和假数据生成技巧与总结
weixin_42878111的博客
04-25 1579
大家好,我是微学AI,今天给大家介绍一下深度学习技巧应用9-模型训练中学习率的调整和假数据生成技巧与总结,我们在训练模型的时候,为了测试模型是否可以行,但是目前还没有标注好大量的数据,在缺乏数据的情况下,今天教大家如何生成假数据(测试数据)进行模型调试,并且教到家学习率如何调整来提高模型的性能,加快收敛的效果。
标签
junjian Li
05-19 2067
什么是标签 标签是将置信度较高的测试数据添加到训练数据中的过程。标签一共有5个步骤。 使用**训练集数据(Train1)**训练一个模型。 使用训练好的模型预测测试集数据。 将预测的置信度较高的样本加入到训练集中。 使用新的训练集训练一个新的模型。 使用新的模型去预测测试集数据。 1. 建立第一个模型 正常建立模型即可 2. 预测测试集 正常测试即可 3. 增加标签数据到训练集 将所有预测的置信度Pr(y=1|x)>0.99和Pr(y=0|x)>0.99的加入到训练集中。 4.训练一
半监督学习之标签(pseudo label,entropy minimization,self-training)
一只禾的博客
02-02 1万+
1.什么是标签 标签方法是一种同时从未标记数据和标记数据中学习的监督范式。将具有最大预测概率的类作为标签。形式化后等价于熵正则化(Entropy Regularization)或熵最小化(Entropy Minimization). 根据半监督学习的假设,决策边界应该尽可能通过数据较为稀疏的区域,即低密度区域,从而避免把密集的样本数据点分到决策边界的两侧,也就是说模型需要对未标记数据做出低熵预测,即熵最小化。标签方法是有利于熵最小化的,即标签的目标其实就是熵最小化。 Loss function分为
深度学习标签Pseudo-Label
weixin_45074568的博客
07-19 2106
第一步:使用标签数据训练模型 第二步:使用训练的模型为不加标签的数据预测标签 第三步:同时使用pseudo标签数据集重新训练模型 在第三步中训练的最终模型用于对测试数据的最终预测
标签:用于深度神经网络的简单高效的半监督学习方法
AI蜗牛车
03-20 889
转载:Deephub Imba未标记的数据由监督学习网络标记,即所谓的标记。然后使用标记数据和标记数据训练网络。标签 (Pseudo-Labels)标签是对未标记数据的进行分类后的...
【NLP】李宏毅老师ELMO, BERT, GPT讲解【笔记】
土豆洋芋山药蛋的博客
03-07 1674
零、引例 首先来看一个例子,下面有四句话,每一句话中都有“bank”这个单词: 1、Have you paid that money to the bank yet ? 2、It is safest to deposit your money in the bank . 3、The victim was found lying dead on the river bank . 4、They sto...
标签Pseudo Label
年少的勇气已经用完,剩下的就是三思而后行
10-21 4870
标签()是半监督学习中的一个概念,能够帮助模型更好的从无标注的信息中进行学习。与完全的无监督学习相比,半监督学习拥有部分的标注数据和大量的未标注数据,这种形式也更加适合现实场景和竞赛场景。在现实,标注数据少,未标注数据多;在竞赛,训练集有标注,测试集未标注;那么如何完全将未标注的数据利用起来呢?在半监督学习中标签是其中的方法,具体思路如下:首先利用现有的标注数据,训练得到一个模型;利用训练得到的模型对无标注数据进行预测;然后将无标注数据的预测标签和数据加入训练集一起训练;
NLP(三十四)使用keras-bert实现序列标注任务
山阴少年
12-26 5950
  对于不同的NLP任务,使用BERT等预训练模型进行微调无疑是使用它们的最佳方式。在网上已经有不少的项目,或者使用TensorFlow,或者使用Keras,或者使用PyTorch对BERT进行微调。本系列文章将致力于应用keras-bert对BERT进行微调,完成基础的NLP任务,比如文本多分类、文本多标签分类以及序列标注等。   keras-bert是Python的第三方模块,它方便我们使用Keras来调用BERT,借助几行代码就可以轻松地完成模型构建,能依据不同的文本任务进行模型训练,获得不错的效果。
bert pytorch 序列标注_序列标注:Bi-LSTM + CRF
weixin_39562615的博客
12-18 1363
最近在做序列标注的相关任务,为了理解bi-lstm + crf的原理及细节,找了很多相关资料,以及代码实现,这里分享给大家并附上一些自己的理解。CRF相关资料推荐关于crf,我看了很多资料,这里推荐几个 - 英文的crf tutorial - 李航的统计学习方法 这两个讲的很细,公式很多,很多新入坑的小白看了肯定一头雾水,这里推荐一个知乎大神的回答,通俗易懂,有一些机器学习基础的都可以看懂。 ...
【Bert】(一)使用场景
mjiansun的专栏
03-01 729
任务总结 1、序列标注:分词,词性标注,命名实体识别(NER) 命名实体识别:找出一句话中的感兴趣实体,例如找一句话中的地址名,人名等。 分词:(还在学习中,请参考NLP ---分词详解(常见的五种分词技术二)_进击的菜鸟-CSDN博客_分词)。 词性标注:例如找出一句话中的名词,动词等。 2、分类任务:文本分类,情感计算 文本分类:例如判断淘宝的评价为正面的还是负面的。 情感计算:(还在学习中)。 3、句子关系判断:entailment(分类为蕴含或矛盾),相似度计算 entailmen
JavaScript获取元素(Pseudo-Element)属性的方法技巧
10-24
主要介绍了JavaScript获取元素(Pseudo-Element)属性的方法技巧,本文直接给出实现代码,需要的朋友可以参考下
tailwindcss-pseudo-elements:TailwindCSS插件,添加元素的变体
03-07
tailwindcss-pseudo-elements TailwindCSS插件,添加元素的变体( ::before , ::after , ::first-letter等)。 用法 安装 NPM npm install tailwindcss-pseudo-elements --save-dev 纱 yarn add tailwindcss-...
pseudo-LiDAR_e2e:LiDAR_e2e
04-14
作者: , , , , , , , 和 引文@inproceedings{qian2020end, title={End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection}, author={Qian, Rui and Garg, Divyansh and Wang, Yan and You, Yurong ...
PSeudo-世界上最简单的PLAYSTATION模拟器
02-04
PSeudo-世界上最简单的PLAYSTATION模拟器
CSS 类(Pseudo-classes)
12-14
CSS 类(Pseudo-classes) CSS类是用来添加一些选择器的特殊效果。 语法 类的语法: selector:pseudo-class {property:value;} CSS类也可以使用类: selector.class:pseudo-class {property:value;} ...
NLP --- 词性标注
热门推荐
进击的菜鸟
01-02 2万+
上前几节我们简单介绍了命名体识别的算法,其实主要的方法就是HMM和CRF了,因为可以转换为标注问题,这里都可以使用HMM和CRF,本节我们将介绍另外一个重要的知识点即词性标注,同样的在宗老师的书里都有详细的讲解,这里就简单的讲解一下,那么我们下面就开始: Part-of-speech,是重要的基础性工作,为后续的句法分析等进一步工作提供基础。分词,命名实体识别,词性标注并称汉语词法分析“三姐妹”...
标签技术
qq_52171945的博客
09-30 1338
那么到底什么是标签标签的定义来自于半监督学习,半监督学习的核心思想就是通过借助无标签的数据来提升有监督过程中的模型性能。那么说了一大串,什么又是半监督学习呢?百度百科是这样定义的:半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
标签Pseudo-Labelling)介绍:一种半监督机器学习技术
lizz2276的博客
06-25 3623
我们在解决监督机器学习的问题上取得了巨大的进步。这也意味着我们需要大量的数据来构建我们的图像分类器。但是,这并不是人类思维的学习方式。一个人的大脑不需要上百万个数据来进行训练,需要通过多次迭代来完成相同的图像来理解一个主题。它所需要的只是在基础模式上用几个指导点训练自己。显然,我们在当前的机器学习方法中缺少一些东西。我们能否可以建立一个系统,能够要求最低限度的监督,并且能够自己掌握大部分的任务。 本文将介绍一种称为标签Pseudo-Labelling)的技术。我会给出一个直观的解释,说明标签是什么,然
【论文精读】 使用空间梯度和噪声分割标签标签)的深度学习配准
过招
06-28 1171
Deep learning based registration using spatial gradients and noisy segmentation labels (Learn2Reg Task 3: CT Abdominal) Théo Estienne, et al. “Deep Learning-Based Registration Using Spatial Gradients and Noisy Segmentation Labels.” MICCAI 2020 Abstract I
如何优化标签生成算法
最新发布
07-20
要优化标签生成算法,可以考虑以下几个方面的方法: 1. 确定阈值:标签生成算法通常会将无标签数据的预测概率与一个阈值进行比较,以决定是否生成标签。选择合适的阈值非常重要,过高的阈值可能导致过少的标签生成,而过低的阈值则可能引入大量错误的标签。可以通过交叉验证或使用验证集来调整阈值,以找到最佳的平衡点。 2. 引入可信度度量:仅仅依靠预测概率是否超过阈值来生成标签可能不足够可靠。可以引入可信度度量来衡量预测概率的置信度,例如熵、方差、置信区间等。通过结合可信度度量和阈值判断,可以提高标签生成的准确性。 3. 半监督学习方法:传统的标签生成算法通常使用有标签数据训练模型,然后将模型应用于无标签数据生成标签。但这种方法可能会引入大量的错误标签。半监督学习方法可以结合有标签数据和无标签数据进行联合训练,通过利用无标签数据的信息提升模型的性能和标签的质量。 4. 异常检测和过滤:为了去除可能的异常样本和噪声,可以运用异常检测方法来识别与已有标签不一致或异常的样本。通过过滤掉这些异常样本,可以提高标签生成算法的准确性和鲁棒性。 5. 动态调整生成策略:考虑到数据分布可能会随时间变化,标签生成策略也需要进行动态调整。可以使用滑动窗口或其他方法来跟踪数据分布的演化,并针对新的数据分布调整标签生成算法的参数或策略。 综合利用以上方法,可以不断改进标签生成算法,提高生成标签的准确性和可靠性,从而为情感漂移检测等任务提供更好的支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 【教程】完美解决windows10磁盘占用100%并出现卡顿、假死现象 281952
  • Python解决`ValueError: numpy.ndarray size changed, may indicate binary incompatibility. Expected 88 41898
  • 如何在Word中将所有图片批量设置为居中对齐 21938
  • 单片机实验期末考试-使用两个外部中断控制8只LED显示的电路 21288
  • Word2010中自动尾注添加参考文献 18442

分类专栏

  • CTF 3篇
  • 秋招 6篇
  • LeetCode学习之路 307篇
  • LaTeX教程 2篇
  • 文献阅读及实验复现 10篇
  • 深度学习 35篇
  • Linux学习 3篇
  • Java学习历程 4篇
  • 个人网站搭建 9篇
  • Python3学习 58篇
  • 操作系统实验课 5篇
  • 计算机图形学 7篇
  • 微机原理实验课 3篇
  • 计算机网络 11篇
  • 数据结构 10篇
  • Windows各种问题处理 5篇
  • 操作系统课程设计 10篇
  • 编译原理 2篇
  • Word常见操作技巧总结 3篇

最新评论

  • Python解决`ValueError: numpy.ndarray size changed, may indicate binary incompatibility. Expected 88

    红红的太阳我最爱: 牛皮大哥,感谢感谢

  • SimCSE初步使用且和Bert的简单对比

    loveJennieee: 请问各位有模型的网盘链接吗 hug进不去

  • SimCSE初步使用且和Bert的简单对比

    loveJennieee: 大佬模型有网盘的链接吗 网页进不去

  • SimCSE初步使用且和Bert的简单对比

    qq_43599739: 是直接调用吗?还是在自己数据集上微调呀?

  • Python解决`ValueError: numpy.ndarray size changed, may indicate binary incompatibility. Expected 88

    白树酱: 我的是1.20.0还是有这个问题

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • CTFHub之目录遍历
  • CTFHub之响应包源代码
  • CTFhub技能树之Cookie
2024年3篇
2023年4篇
2022年179篇
2021年23篇
2020年190篇
2019年28篇
2018年61篇
2017年43篇
2016年24篇

目录

目录

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

4617作文网姓相女孩起什么名字好做噩梦怎么破解方法开装修公司怎么起名网游起名称今年的男宝宝起名字五行属土名字起名周公解梦旧版新版大全八卦周易六十四卦周易周公解梦大全周易生辰八字起名网免费取名测名2020女宝起名大全金字起名大全企业易经周易取名生辰八字周公解梦梦见吃甘庶周易预测台湾的未来起名字是根据什么名字李姓鼠年男孩起名大全历代状元起名起名齐姓公司起名字大全带海字煜怎么起名2020属鼠的宝宝起名梦到车周公解梦算命网配对姓名八字算命我姓陈孩子起什么名字建筑安装工程有限公司起名大全周易相关的书籍周公解梦打人周易取名2017淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男子给前妻转账 现任妻子起诉要回网友建议重庆地铁不准乘客携带菜筐月嫂回应掌掴婴儿是在赶虫子重庆警方辟谣“男子杀人焚尸”国产伟哥去年销售近13亿新的一天从800个哈欠开始男孩疑遭霸凌 家长讨说法被踢出群高中生被打伤下体休学 邯郸通报男子持台球杆殴打2名女店员被抓19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警两大学生合买彩票中奖一人不认账德国打算提及普京时仅用姓名山西省委原副书记商黎光被逮捕武汉大学樱花即将进入盛花期今日春分张家界的山上“长”满了韩国人?特朗普谈“凯特王妃P图照”王树国3次鞠躬告别西交大师生白宫:哈马斯三号人物被杀代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了房客欠租失踪 房东直发愁倪萍分享减重40斤方法“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火手机成瘾是影响睡眠质量重要因素考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼网友洛杉矶偶遇贾玲呼北高速交通事故已致14人死亡西双版纳热带植物园回应蜉蝣大爆发男孩8年未见母亲被告知被遗忘张立群任西安交通大学校长恒大被罚41.75亿到底怎么缴沈阳一轿车冲入人行道致3死2伤奥运男篮美国塞尔维亚同组周杰伦一审败诉网易国标起草人:淀粉肠是低配版火腿肠外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万杨倩无缘巴黎奥运男子被猫抓伤后确诊“猫抓病”春分“立蛋”成功率更高?记者:伊万改变了国足氛围奥巴马现身唐宁街 黑色着装引猜测

4617作文网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化