请选择 进入手机版 | 继续访问电脑版
专注物联网产业服务
微信二维码
威腾网服务号
游客您好
第三方账号登陆
  • 点击联系客服

    在线时间:8:00-16:00

    客服电话

    17600611919

    电子邮件

    online@weiot.net
  • 威腾网服务号

    随时掌握企业动态

  • 扫描二维码

    关注威腾小程序

图像识别
图像识别
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。 现阶段图像识别技术一般分为人脸识别与商品识别,人脸识别主要运用在安全检查、身份核验与移动支付中;商品识别主要运用在商品流通过程中,特别是无人货架、智能零售柜等无人零售领域。
  • 九图解读汽车仪表盘上的信息,以后灯亮就不会看不懂了
    九图解读汽车仪表盘上的信息,以后灯亮就不会看不懂了(广州交警) https://p9.toutiaoimg.com/large/pgc-image/SieST9WCgCH6zR https://p26.toutiaoimg.com/large/pgc-image/SieSTA92iDxMzw https://p9.toutiaoimg.com/large/pgc-image/SieSTAT8GdYlv1 https://p9.toutiaoimg.com/large/pgc-image/SieSTAt6jT3ZU9 https://p3.toutiaoimg.com/large/pgc-image/SieSTBGE8k1jLv https://p5.toutiaoimg.com/large/pgc-image/SieSTfyFNXIMgo https://p5.toutiaoimg.com/large/pgc-image/SieSTgN5gpRmpQ https://p6.toutiaoimg.com/large/pgc-image/SieSTglCEzIwOe https://p6.toutiaoimg.com/large/pgc-image/SieSTh99LpX3E4 来源: 天津交通广播 原文章作者:光明网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2022-1-11
    最后回复 冯斑承 2022-1-11 22:40
    1828 0
  • 车牌识别算法基本原理
    关键词:车牌识别一体机、车牌识别摄像机、车牌识别摄像头、车牌识别相机、车牌识别系统 车牌识别算法基于图像分割和图像识别理论,对含有车牌识别车辆号牌的图像进行分析处理,从而确定牌照在图像中的位置,并进一步提取和识别出文本字符。车牌识别过程包括图像采集、预处理、车牌定位、字符分割、字符识别、结果输出等一系列算法运算,其运行流程如下图所示: 关键词:车牌识别一体机、车牌识别摄像机、车牌识别摄像头、车牌识别相机、车牌识别系统 1.图像采集 根据车辆检测方式的不同,图像采集一般分为两种,一种是静态模式下的图像采集,通过车辆触发地感线圈、红外或雷达等装置,给相机一个触发信号,相机在接收到触发信号后会抓拍一张图像,该方法的优点是触发率高,性能稳定,缺点是需要切割地面铺设线圈,施工量大;另一种是视频模式下的图像采集,外部不需要任何触发信号,相机会实时地记录视频流图像,该方法的优点是施工方便,不需要切割地面铺设线圈,也不需要安装车检器等零部件,但其缺点也十分显著,由于算法的极限,该方案的触发率与识别率较之外设触发都要低一些。 2.预处理 由于图像质量容易受光照、天气、相机位置等因素的影响,所以在识别车牌之前需要先对相机和图像做一些预处理,以保证得到车牌最清晰的图像。一般会根据对现场环境和已经拍摄到的图像的分析得出结论,实现相机的自动曝光处理、自动白平衡处理、自动逆光处理、自动过爆处理等,并对图像进行噪声过滤、对比度增强、图像缩放等处理。去噪方法有均值滤波、中值滤波和高斯滤波等;增强对比度的方法有对比度线性拉伸、直方图均衡和同态滤波器等;图像缩放的主要方法有最近邻插值法、双线性插值法和立方卷积插值等。 逆光图像 过曝图像 有噪声图像 3.车牌定位 从整个图像中准确地检测出车牌区域,是车牌识别过程的一个重要步骤,如果定位失败或定位不完整,会直接导致最终识别失败。车牌定位方法一般会依据纹理特征、颜色特征和形状特征等信息,采用投影分析、连通域分析、机器学习等算法检测车牌。投影分析方法根据车牌字符与背景交替出现的次数相比于其他情况要多这个特征,通过图像在水平和垂直方向的投影分析来定位车牌。连通域分析根据车牌中的每个字符都是一个连通域且这些连通域的结构和颜色都一致的特征,通过检测并合并这些连通域来定位车牌;机器学习的思路是,先使用从很多个车牌样本中提取出来的特征把一个弱分类器训练成一个强分类器,再使用这个强分类器对图像进行扫描检测从而定位到车牌。由于复杂的图像背景,且要考虑不清晰车牌的定位,所以很容易把栅栏,广告牌等噪声当成车牌,所以如何排除这些伪车牌也是车牌定位的一个难点。为了提高定位的准确率和提高识别速度,一般的车牌识别系统都会设计一个外部接口,让用户自己根据现场环境设置不同的识别区域。 基于连通域分析的车牌定位方法流程图 4.车牌校正 由于受拍摄角度、镜头等因素的影响,图像中的车牌存在水平倾斜、垂直倾斜或梯形畸变等变形,这给后续的识别处理带来了困难。如果在定位到车牌后先进行车牌校正处理,这样做有利于去除车牌边框等噪声,更有利于字符识别。目前常用校正方法有:Hough变换法,通过检测车牌上下、左右边框直线来计算倾斜角度;旋转投影法,通过按不同角度将图像在水平轴上进行垂直投影,其投影值为0的点数之和最大时的角度即为垂直倾斜角度,水平角度的计算方法与其相似;主成分分析法,根据车牌背景与字符交界处的颜色具有固定搭配这一特征、求出颜色对特征点的主成分方向即为车牌的水平倾斜角度;方差最小法,根据字符在垂直方向投影点的坐标方差最小导出垂直倾斜角的闭合表达式,从而确定垂直倾斜角度;透视变换,利用检测到的车牌的四个顶点经过相关矩阵变换后实现车牌的畸变校正。 水平和垂直倾斜 梯形畸变 5.字符分割 定位出车牌区域后,由于并不知道车牌中总共有几个字符、字符间的位置关系、每个字符的宽高等信息,所以,为了保证车牌类型匹配和字符识别正确,字符分割是必不可少的一步。字符分割的主要思路是,基于车牌的二值化结果或边缘提取结果,利用字符的结构特征、字符间的相似性、字符间间隔等信息,一方面把单个字符分别提取出来,也包括粘连和断裂字符等特殊情况的处理;另一方面把宽、高相似的字符归为一类从而去除车牌边框以及一些小的噪声。一般采用的算法有:连通域分析、投影分析,字符聚类和模板匹配等。污损车牌和光照不均造成的模糊车牌仍是字符分割算法所面对的挑战,有待更好的算法出现并解决以上问题。 6.字符识别 对分割后的字符的灰度图像进行归一化处理,特征提取,然后经过机器学习或与字符数据库模板进行匹配,最后选取匹配度最高的结果作为识别结果。目前比较流行的字符识别算法有:模板匹配法、人工神经网络法、支持向量机法和Adaboost分类法等。模板匹配法的优点是识别速度快、方法简单,缺点是对断裂、污损等情况的处理有一些困难;人工神经网络法学习能力强、适应性强、分类能力强但比较耗时;支持向量机法对于未见过的测试样本具有更好的识别能力且需要较少的训练样本;Adaboost分类法能侧重于比较重要的训练数据,识别速度快、实时性较高。我国车牌由汉字、英文字母和阿拉伯数字3种字符组成,且具有统一的样式,这也是识别过程的方便之处。但由于车牌很容易受外在环境的影响,出现模糊、断裂、污损字符的情况,如何提高这类字符和易混淆字符的识别率,也是字符识别的难点之一。易混淆字符包括:0与D、0与Q、2与Z、8与B、5与S、6与G、4与A等。 污损车牌 7.车牌结果输出 将车牌识别结果以文本格式输出,包括车牌号,车牌颜色,车牌类型等。 车牌输出结果 刘R18629143739 QQ 447113654 原文章作者:易泊车牌识别专家,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-30
    2449 0
  • 休恩科技ocr数据采集解决方案,助图像识别更智慧精准
    OCR(Optical Character Recognition)指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术,用于替代繁琐的人工数据识别、录入、检查等操作,提高对图形数据的识别效率和准确率。 休恩科技基于自身的OCR技术、图形处理技术,运用AI智能平台、大数据平台技术,自主研发了OCR数据采集解决方案。该方案运用领先的AI智能平台,采用先进的图形算法,用于对各种图像数据的采集、分析、处理等。通过工业相机、摄像头、探测器、工业PAD等进行图像、视频数据的采集。 利用AI智能平台实现图像数据采集技术,使得该平台拥有基础分析引擎和配置AI引擎工具,具有丰富而强大的模块学习功能,可以通过不断的学习生成对应的模型,实现对图像数据的检测、识别、分隔、测量、理解、分类等工作,应用于图形识别、范围管理、人员识别、行为管理、动态追踪等领域。结合大数据平台,实现对数据的批量采集,对海量数据的分析、处理、封装、服务等操作,实现对用户画像、智能生产、能耗管理、智慧运维与服务、销售预测、智能推荐等应用服务。 在智能手持设备的应用 休恩科技OCR数据采集解决方案可应用于各种智能手持设备,用于智能手持设备对各种包装箱印刷信息、标签中非条码信息(如批号、重量、生产日期、保质期等),电路板中序列号、批号等信息及其他物品中标识信息的精准读取。 在生产数据采集的应用 在制造业中,应用休恩科技OCR数据采集解决方案,完成对产品生产信息的识别,对存在字符漏喷码、喷码缺少、数据有误等问题产品进行智能检测,当遇到产品信息错误情况时,系统发出报警信号,触发生产线剔除装置完成对不合格品的处理,或者给出警报提示让作业人员按指令操作。 在产品包装检测的应用 在奶粉包装线上,应用休恩OCR数据采集解决方案对罐装奶粉进行配件缺失检测。检测罐装奶粉中有无密封的铝模及铝模的密封完整性,检测罐装奶粉中有无小勺。当发现奶粉罐中有配件缺失或密封不完整情况,系统发出报警指令,通知作业人员进行不合格品的剔除操作。 在PCB板检测的应用 合格的PCB板要求符合字符清晰无缺失、条光滑无凸点、无线体重合、无重影、无麻点、无变形、无色差等标准,应用休恩科技OCR数据采集解决方案对PCB板进行检测,系统通过标准模板图片自动学习,根据学习的图片进行比对处理,满足PCB板字符形态符合标准,做到无变形、无模糊、无重影,清晰易识别。 在机械手定位的应用 机械手可以模仿人手臂的某些功能,按照设定的程序来抓取、搬运物体,不仅提高生产效率,还可以保护操作人员的安全。休恩科技OCR数据采集解决方案可以帮助机械手自主识别和确定目标物体,引导机械手进行准确的目标物拾取,通过对物体的图形分析,调整机械手的高度定位,引导机械手进行精准对位。 休恩科技OCR数据采集解决方案应用领域非常广泛,如对待检区进入者的人脸识别,在交通中对闯红灯车辆的违法取证(如车牌信息),在地理测绘中对全景景象的数据采集,在动车组运行故障动态图像检测系统中等均有应用。休恩科技运用先进的OCR智能识别技术为各行业客户提供更智慧精准的图像识别服务。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-30
    1830 0
  • OpenCV4.0 灰度图像彩色化
    关注:OpenCV干货与教程第一时间送达! 欢迎星标或者置顶【OpenCV学堂】 概述 OpenCV4.0发布以后,有很多新的特性与黑科技支持,无论是支持OpenVINO加速、图计算模块、二维码识别,还是DNN中新增加的人脸检测与识别模型,作为OpenCV开发者的我深深被吸引,几乎只要有时间就会一个一个的去发现与之前的不同之处。OpenCV DNN模块,不仅支持图像分类、对象检测、人脸检测、图像分割等操作除外,还支持对灰度图像的自动彩色化转换,而且效果十分靠谱,亲测有效! 着色模型(colorization model) 该模型是在2016发表在ECCV上面的,该模型与之前的基于CNN模型的不同之处在于,它是一个无监督的学习过程,不会把着色对象与训练生成看成是一个回归问题、而且是使用CIE Lab色彩空间,使用L分量作为输入,输出为颜色分量a,b,通过对颜色分量进行量化,把网络作为一个分类问题对待, 对得到输出结果,最终加上L分量之后,得到着色之后的图像,模型架构如下: 其中卷积层每一个block是有几个重复的conv卷积操作与ReLU + BN层构成!其中蓝色部分,是a,b颜色的313对ab量化表示。最终学习到的就是WxHx313输出,进一步转换为Color ab的输出, 加上L分量之后就是完整的图像输出!313对ab色彩空间量化表示如下: 针对自然场景下,ab值较低导致生成图像的失真问题,作者通过分类再平衡技术依靠训练阶段,通过对损失函数调整像素权重,实现了比较好的效果。作者的github上可以查看该模型的实现源码。 模型下载地址如下 https://github.com/e-lab/ENet-training 论文地址 https://arxiv.org/abs/1606.02147 OpenCV中使用 下载ENet预训练模型,通过OpenCV DNN支持,可以实现加载模型与执行推断,对大多数的灰度图像实现自然着色,毫无违和感!步骤如下: 加载模型 modelTxt = "D:/projects/models/color/colorization_deploy_v2.prototxt"; modelBin = "D:/projects/models/color/colorization_release_v2.caffemodel"; pts_txt = "D:/projects/models/color/pts_in_hull.npy"; # 加载网络 net = cv.dnn.readNetFromCaffe(modelTxt, modelBin) pts_in_hull = np.load(pts_txt) # load cluster centers # populate cluster centers as 1x1 convolution kernel pts_in_hull = pts_in_hull.transpose().reshape( 2, 313, 1, 1) net.getLayer(net.getLayerId( 'class8_ab')).blobs = net.getLayer(net.getLayerId( 'conv8_313_rh')).blobs = , 2.606, np.float32)] 转换输入与执行 frame = cv.imread( "D:/images/yuan_test.png") h, w = frame.shape[: 2] img_rgb = (frame[:,:,[ 2, 1, 0]] * 1.0/ 255).astype(np.float32) # 色彩空间转换 img_lab = cv.cvtColor(img_rgb, cv.COLOR_BGR2Lab) img_l = img_lab[:,:, 0] # pull out L channel (H_orig,W_orig) = img_rgb.shape[: 2] # original image size # resize为输入网络图像大小 img_rs = cv.resize(img_rgb, (W_in, H_in)) img_lab_rs = cv.cvtColor(img_rs, cv.COLOR_BGR2Lab) # 选择一L通道分量 img_l_rs = img_lab_rs[:,:, 0] img_l_rs -= 50# subtract 50 for mean-centering # 输入L分量,开始操作 net.setInput(cv.dnn.blobFromImage(img_l_rs)) ab_dec = net.forward()[ 0,:,:,:].transpose(( 1, 2, 0)) 解码输出结果 # 解码输出颜色值 (H_out,W_out) = ab_dec.shape[: 2] ab_dec_us = cv.resize(ab_dec, (W_orig, H_orig)) img_lab_out = np.concatenate((img_l[:,:,np.newaxis],ab_dec_us),axis= 2) img_bgr_out = np.clip(cv.cvtColor(img_lab_out, cv.COLOR_Lab2BGR), 0, 1) 显示着色图像 # 显示着色 frame = cv.resize(frame, (w, h)) cv.imshow( 'origin', frame) cv.imshow( 'gray', cv.cvtColor(frame, cv.COLOR_RGB2GRAY)) # fix 4.0 imshow issue cv.normalize(img_bgr_out, img_bgr_out, 0, 255, cv.NORM_MINMAX) cv.imshow( 'colorized', cv.resize(np.uint8(img_bgr_out), (w, h))) 运行结果: 输入彩色图像,转为灰度图像,然后自动着色对比一下! 直接输入灰度图像,着色: 看效果,从此以后再也不担心灰度图像无法自动上色啦! OpenCV成功解锁!,记得点好看! 欢迎扫码加入【OpenCV研习社】 原文章作者:OpenCV学堂,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    2386 0
  • 【技术知识】人脸识别基本原理及关键技术
    人脸识别主要分为人脸检测、图像预处理、特征提取和匹配识别4个过程(如图1所示)。 1.人脸检测 人脸检测在实际应用中主要用于人脸识别的预处理,即从输入图像中检测并提取人脸图像,标定出人脸的位置和大小。目前常用的人脸图像模式特征有:直方图特征、颜色特征、结构特征及haar特征等。基于以上特征采用Adaboost算法挑选出最能代表人脸的矩形特征,按照加权投票方式,按级构造成级联分类器。检测时,级联分类器对图像中的每一块进行分类并将最终通过级联分类器的图像判定为人脸图像。 图1 人脸识别过程 2.图像预处理 人脸检测获取的原始图像由于受到各种条件的限制和随机干扰,往往不能直接使用,需要在人脸图像预处理部分对图像进行包括光线补偿、灰度变换、直方图均衡化、归一化、滤波及锐化等处理。 3.特征提取 特征提取是人脸识别中最关键的一步,简单说它是指通过一些数字来表征人脸信息,这些数字就是要提取的特征。 目前主流的特征提取算法主要分为线性特征提取算法和非线性特征提取算法。线性特征提取算法的代表是主分量分析(PCA)与线性鉴别分析(LDA)。 主分量分析是一种基本的多维数据描述方法,其基本思想是:利用一组为数不多的特征去尽可能地精确表示样本的特征。主分量分析通常采用样本总体协方差矩阵的特征向量系作为展开基(即K-L坐标轴),而那些对应若干个最大特征值的特征向量则被称为主分量或者主成分(principal component)。模式样本在这些主分量上线性投影后,所得的系数即称为主分量特征。主分量分析具有:消除了模式样本之间的相关性和实现了模式样本的维数压缩两大优点,即主分量分析给出了原始高维样本的一种简约表示。可以证明,这种表示在最小协方差意义下是最优的。由于这些优点,主分量分析被成功应用于人脸图像表示。但是由于这种表示是以所有样本的最优重建为目的,因此对于描述不同类样本之间的差异而言,它不一定是最优的描述。从这个意义上说,用它描述的特征来进行人脸识别不是最优的。 线性鉴别分析是众多模式识别方法中最经典的方法之一。LDA算法的目的是确定一组最优鉴别矢量(投影轴),使得原始数据在该鉴别矢量集上投影后类间离散度和类内离散度的行列式之比达到最大,称该方向对应的矢量为Fisher最佳鉴别矢量。LDA的物理意义是,样本在这些最优鉴别矢量上投影后,同类的样本尽可能靠近,而不同类样本尽可能地分离,类间散布程度与类内散布程度之比达到最大。如果说PCA获得的是样本的最佳表示特征集,那么LDA获得的则是样本的最佳鉴别特征集,该特征集应该更适于模式的分类。 但对于人脸识别而言,由于表情、光照、姿态等变化而引起的人脸图像之间的差异造成人脸图像在高维空间的分布是非线性的,而线性特征提取方法是对这些非线性特征进行了线性简化,所以无法获得更好的识别效果。于是,非线性特征提取方法引起了研究者们广泛的关注,并取得极大的发展。非线性特征提取方法大致可分为两个分支,即基于核的特征提取方法和以流形学习为主导的特征提取方法。 4.匹配识别 将提取到的待识别人脸特征与数据库中的人脸特征进行对比,根据相似度对人脸的身份信息进行判断。而这一过程又可以分为两个大类:一类是一对一验证,一类是一对多辨认。 一对一验证是指将待识别人的特征信息与历史采集特征信息进行两两比对,若两者的相似度不低于设定的阈值,则验证通过,否则失败。在这种模式下通常采用错误拒绝率(FNMR,FalseNon-Match Rate)和错误接受率(FMR,False Match Rate)两个指标衡量生物特征识别技术性能,具体定义如(1)和(2)所示。 一对多的辨认是利用未知身份生物特征在大量的已知身份的生物特征数据库中查询,设置相似度阈值,并返回列表长度,识别未知生物特征拥有者的身份。一般用错误匹配率(FPIR,False Positive Identification Rate)和正确识别率(TPIR,True Positive Identification Rate)两个指标衡量识别性能。具体定义如(3)和(4)所示。 在人脸识别性能测试中为了衡量人工查看的工作强度,还定义了SEL(Selectivity)指标衡量一对多识别性能,SEL具体定义如(5)所示。 当光照条件和人脸姿态发生变化后(例如人脸在深度方向发生偏转),人脸识别系统的识别率会出现严重的下降。鉴于以上技术缺陷,在人脸识别技术领域,各大高校、科研机构都在进行更加深入的研究,各种各样的新技术、新算法不断涌现。例如,基于多线索的人脸识别技术通过在认知判别中引入多种有效的特征信息和多种理论推理方法,全面、准确地认识和区分对象;基于线性表示的鲁棒人脸识别算法,该算法首先检测出图像中存在的噪声点,然后在去除噪声的基础上求得准确的表示系数,做出更加准确的识别;基于流形学习的局部最大间距鉴别嵌入(LMMDE)特征提取方法。该方法在保持样本局部结构的同时,考虑位于同一流形上不同类样本的差异性,有效解决了因近邻关系扭曲而引起的不同类样本相互重叠的问题。 原文章作者:亚丹定制家居,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    3176 0
  • 全球最大人眼图像数据集开源了!超2000万图片!
    本文转自机器之心。 作者:杜伟 涵盖 2D 和 3D 特征点、语义分割、3D 眼球注释以及注视向量和眼动类型等因素,德国图宾根大学的研究者创建了全球最大的人眼图像公开数据集——TEyeD。 在当今世界,基于图像的眼动追踪(eye tracking)变得越来越重要,这是因为人眼运动有可能变革我们与周围计算机系统交互的方式。此外,眼动的方式可以识别甚至在某种程度上预测我们的行动和意图,所以眼动分析可以赋能新的应用,特别是与 VR 或 AR 等现代显示技术结合时。例如,人眼注视(gaze)信号连同人机交互的可能性,使得残疾人能够借助专门为其疾症设计的特殊设备来与环境进行交互。在手术显微镜的应用场景中,外科医生必须进行多种控制行为,这时视觉信号可以用于自动对焦。人眼注视行为还可用于诊断精神分裂症、自闭症、阿尔茨海默症、青光眼等多种疾病。在 VR 或 AR 游戏中,人眼注视信号可用于减少渲染资源的计算。 除了人眼注视信息以外,对人眼的观察还可以带来更多信息源。例如人眼闭合的频率可用于衡量人的疲劳程度,这是汽车驾驶和航空飞行场景中的一种有效安全特征。另一个重要的信息源是瞳孔大小,它可以作为估计指定任务中人们认知负荷的基础,然后调整内容(如基于媒介的学习)以更好地适应人的精神状态。最后,借助虹膜特征以及个人的人眼注视行为,人眼相关的信息可以在生物识别过程中得到应用。 近日,来自德国图宾根大学的研究者创建了世界上最大的、统一人眼图像公开数据集 TEyeD,这些图像均通过头戴式设备拍摄获取。具体而言,TEyeD 的创建过程中使用了七种不同的头戴式眼动追踪器,其中两个还结合了 VR 或 AR 设备。TEyeD 中的图像在不同的任务场景中获得,包括乘车、模拟飞行、户外体育运动以及日常室内活动。 此外,数据集中的人眼图像包括 2D 和 3D 特征点、语义分割、3D 眼球注释以及注视向量(gaze vector, GV)和眼动类型。对瞳孔、虹膜和眼睑均提供了特征点和语义分割,视频长度从几分钟到几小时不等。TEyeD 数据集拥有 2000 多万张精心注释的人眼图像,为推动现代 VR 和 AR 应用中计算机视觉、眼动追踪和注视估计领域的研究提供了独特且一致的资源和良好的基础。 论文地址:https://arxiv.org/pdf/2102.02115.pdf 数据与代码地址:http://link.52cv.net/XPh 与现有数据集的对比 下表 1 列出了包含人眼特写图像的现有数据集。每个数据集处理特定的问题,例如 Casia 和 Ubiris 数据集借助虹膜识别个人。在 NNVEC 中,对光学向量和眼球位置的直接估计可以补偿头戴式眼动追踪器的位移。 TEyeD 通过使用 7 种分辨率不同的眼动追踪器结合并扩展了以前发布的数据集,合并了现有数据集提供的所有可用注释,并通过 3D 分割和特征点扩展了这些数据集。更具体地说,TEyeD 集成的数据集包括 NNGaze、LPW、GIW、ElSe、ExCuSe 和 PNET。此外,来自研究 [69] 的完整数据也得到了精心注释。 TEyeD 一共包含2000 多万张图像,是全球最大、利用头戴式眼动追踪器拍摄的图像数据集。 数据集详情 下图 1 展示了 TEyeD 数据集中的示例图像。具体而言,第 1 和第 5 列包含输入图像;第 2 和第 6 列的人眼图像展示了巩膜、虹膜和瞳孔的叠加分割(overlaid segmentation);第 3 和第 7 列展示了输入图像的特征点,其中红色表示眼睑、绿色表示虹膜、白色表示瞳孔;第 4 和第 8 列展示了计算出的眼球以及眼球中心和注视向量。 下图 2 展示了瞳孔(左)、虹膜(中)和眼睑(右)特征点的对数分布: 下图 3 展示了瞳孔、虹膜和巩膜的区域分布箱形图(左),以及注视向量的对数分布(右): 下图 4 展示了眼球位置 (x,y) 的分布,以及映射到固定分辨率 192×144 的眼球半径(以像素为单位)箱形图: 注释过程 对于 TEyeD 数据集中的特征点注释和语义分割,研究者同时使用了半监督方法和多注释 maturation (MAM) 算法。与原始算法不同,他们没有用 SVM,而是将卷积神经网络(CNN)与 HOG 特征相结合。此外,研究者还将迭代次数限制在了 5 次,并使用两个竞争模型。其中一个模型包含 ResNet50,并使用 [36] 中的验证损失函数进行特征点回归训练;对于另一个模型,他们将语义分割与 U-Net 和残差块一起训练。 最初,研究者对 2 万张具有特征点的图像进行了注释,并将它们转化成语义分割。然后,他们训练 CNN 并利用 MAM 算法不断进行改进。在 5 次迭代后,ResNet50 特征点转化成了语义分割并与 U-Net 结果进行对比。 具体而言,研究者基于 [30] 中的方法对 3D 眼球和光学向量进行了注释。但是,他们没有使用椭圆形瞳孔,而是使用了椭圆形虹膜,这是因为后者仅受角膜曲率(corneal refraction)的部分影响。 通过结合 2D 特征点、分割和 3D 眼球模型,研究者对 3D 特征点和分割进行了几何计算。由于瞳孔总是位于虹膜的中心,他们考虑了两种不同的 3D 分割和 3D 特征点。 眼动注释则分为了注视(眼球静止不动)、扫视(两次注视之间的快速眼动)、平滑跟随(缓慢眼动)和眨眼。 基准评估 在实验中,研究者将数据分成训练集和验证集。为了避免训练和验证集中出现相同的实验对象,他们将整个记录分配给训练集和验证集的其中一个。 对于评估环境,研究者将基于 C ++ 的 CuDNN 框架用于神经网络模型。测试环境硬件包括一个 4 核心、16GB DDR4 内存的 Intel i5-4570 CPU 和一个 4 GB 内存的 NVIDIA 1050ti。 下表 3 显示了特征点回归的结果。结果表明,如预期一样,较大模型在回归任务上更加有效。 下表 4 得出了同样的结论,其中显示了眼球参数估计的结果: 如上表 3 和 4 所示,与现有规模较小的数据集相比,我们可以看到 TEyeD 数据集具有明显优势。这些结果还表明,如预期的那样,对现实世界场景中拍摄的图像进行跨眼球追踪(cross-eye-tracker)泛化是一项具有挑战性的任务,但通过结合使用 TEyeD 与更复杂的架构可以处理这项任务。因此,无论何时使用一种新的眼动追踪设备都可以轻松解决跨眼球追踪泛化任务,并且无需创建和注释新数据。 下图 5 显示了语义分割的结果: 下表 6 显示了眼动识别的结果。可以看到,注视向量在眼动分类中更加有效,因为它对眼动追踪器的位移做出了补偿。 原文章作者:计算机视觉life,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    3050 0
  • 卡口车牌识别技术
    卡口车牌识别技术是智能交通重要的组成部分,其主要任务是实现对采集单元输出的车辆原始图像进行检测分析,提取车牌相关特征信息,进行比对和识别,可在对车辆不做任何改动的情况下,有效地记录和验证车辆号牌信息。近年来,卡口车牌识别技术已被广泛应用于城市智能交通系统中,如闯红灯抓拍、超速行驶违章抓拍及交通治安卡口系统等,尤其是交通治安卡口系统,其作为治安刑侦管理的重要科技手段之一,对车牌自动识别技术提出了更高的要求,促进了车牌自动识别技术的快速发展。高清系统的出现,使得图像分辨率大大提高,为车牌识别系统提供了良好的基础条件,车牌识别系统的准确率得到很大的提高,并且相应的识别基础数据被不断地得到挖掘。 一般别采用基于分布式集中管理的策略,通过多层次立体式结构,把系统前端物理层、传输网络层、数据处理层和用户应用层有机结合起来,系统架构如图1所示。 卡口车牌识别技术系统。主要由前端数据采集子系统、网络传输子系统、中心管理子系统等部分组成。前端数据采集子系统通过视频跟踪和分析技术获取车辆的经过时间、速度、图片、车牌号码、车身颜色等数据。数据通过网络传输子系统传输到中心管理子系统。中心管理子系统对数据进行集中管理、存储、共享等处理。 卡口车牌识别技术系统自动识别流程 系统前端采用了嵌入式高清一体化摄像机,可实现百万级分辨率的视频和图片码流输出,内置了高性能DSP芯片,支持内置智能算法、可实现视频检测、车牌自动识别等功能。 内置相机的车牌自动识别系统使用了独特的纹理+模型算法,具有定位精准,识别速度快,识别精度高,误识率低等特点,不但能捕获有车牌的车辆,对于无牌车同样也能进行正常捕获。将传统模式中基于后端服务器或前端工控机的车牌识别算法移植到前端相机中,具有高集成度,高稳定性,高适应性等特点,相比传统的PC或工控机模式,更能适应实际道路的复杂环境,更能满足智能交通系统中全天候工作的要求。 车辆牌照的自动识别主要是基于图像分割和图像识别理论,对含有车辆号牌的图像进行分析处理,从而确定牌照在图像中的位置,并进一步提取和识别出文本字符。 识别的具体步骤分为车牌定位、车牌提取、字符识别。在自然环境中,相机首先对采集到的视频图像进行大范围相关搜索,找到符合汽车牌照特征的若干区域作为候选区,然后对这些侯选区域做进一步分析、评判,最后选定一个最佳的区域作为牌照区域,并将其从图象中分割出来。 完成牌照区域的定位后,再将牌照区域分割成单个字符,然后进行识别,车牌识别算法采用基于模板匹配算法,首先将分割后的字符二值化,并将其尺寸大小缩放为字符数据库中模板的大小,然后与所有的模板进行匹配,最后选最佳匹配作为结果,通过这种多次比对的方式极大了提高了车牌识别的准确率。 采用了动态视频识别技术,实现对视频流每一帧图像进行识别,从而达到增加识别比对次数,大大提高了识别的效率和准确率。 卡口车牌识别技术系统功能 卡口车牌识别技术系统采用先进的图像识别算法,实现对通过的所有车辆进行车辆号码识别、号牌颜色识别、车身颜色及车型等自动识别。 1、卡口车牌识别技术号牌字符识别 识别的字符包括:数字:0~9;字母:A~Z;省、自治区、直辖市简称;军牌用汉字号牌分类用汉字;武警号牌特殊字符:WJ、00~34、练。 2、卡口车牌识别技术号牌颜色识别 系统能识别蓝、黄、白、黑四种底色的机动车号牌。系统采用车牌颜色和视频检测技术结合的方法对车辆进行分型。对于民用车来说,蓝颜色车牌表示的是小型车辆,而黄颜色车牌表示的是大型车辆。因此,首先利用车牌颜色判断车辆类型,对于无法根据车牌颜色判别车型或者无法判断车牌颜色的情况,利用图像分析技术来辅助区分车辆的类型。 3、卡口车牌识别技术号牌结构识别系统能识别的号牌结构包括 单排字符结构的号牌,如军队用小型汽车号牌、GA36-2007中的小型汽车号牌、港澳入出境车号牌、教练汽车号牌等; · 武警用小型汽车号牌; · 警用汽车号牌; · 双排字符结构的号牌,如军队用大型汽车号牌、武警用大型汽车号牌、GA36-2007中的大型汽车号牌、挂车号牌、低速汽车号牌等。 4、卡口车牌识别技术车辆号牌识别 号牌识别信息包含号牌结构、号牌字符、号牌颜色等信息。 车牌识别系统应用特点 1、卡口车牌识别技术车牌识别速度快 车牌识别速度决定了车牌识别系统是否能够满足实时实际应用的要求。一个识别率很高的系统,如果需要几秒钟,甚至几分钟才能识别出结果,那么这个系统就会因为满足不了实际应用中的实时要求而毫无实用意义。 智能交通摄像机内置的车牌识别算法具有极高的识别效率,单车牌识别时间平均在40ms左右,较快的识别速度能够很好地避免车牌漏识别,同时能够及时地为其他智能分析应用释放出更多的系统资源。 2、卡口车牌识别技术强大的ISP处理能力 车牌自动识别系统的识别率与牌照质量和拍摄的图像质量有非常密切的关系,不但牌照本身的生锈、污损、油漆剥落、字体褪色等各种因素会大大影响车牌识别的准确性,而且拍摄的环境是否理想也会给车牌识别带来很大的影响。 智能交通摄像机内置了强大的ISP处理功能,可提供视频稳定、面部检测、噪声过滤、自动白平衡、自动曝光以及伽马校正、边缘增强等功能,将图像质量和效果提升到一个新的层次,不但改善了用户实际观感,更为智能化应用如车牌识别等提供了很好的运算分析基础,充分保证了较高的车牌识别的准确率。 3、卡口车牌识别技术对光照气候背景良好的适应性 很多车牌识别系统在阴天时识别率较高,晴天时反而下降甚至无法识别。直射光情况下,拍摄方向与阳光照射方向相同,拍摄到的车牌区域很亮导致字符笔划较粗、相互粘连,而且我国的车牌都采用反光漆,严重时会出现镜面反射,无法看清车牌号码。另外,车体表面的反光产生的亮线、光晕也会对识别造成影响。牌照识别多数用于识别运动中的车辆,车牌区域在整个图像中是不固定的,普通摄像机无法根据车牌区域进行调节。夜间环境下车辆开启车灯,普通摄像机受大灯的影响减弱曝光强度造成图像车牌区域很暗,无法看清号码,车大灯的光线还可能形成大面积光晕遮挡牌照区域。 而环境光线动态分析技术、局部亮度反馈闭环控制技术,能对图像整体亮度和车牌区域亮度实时分析、控制,并智能地调整摄像机的光圈、快门、增益等曝光参数,动态跟踪光线的变化,对复杂的环境、气候及光照变化具有良好的适应性,全天候都可拍摄到最清晰的图像,进而确保了极高的车牌识别率。 4、卡口车牌识别技术准确抓拍无后车牌或者后车牌遮挡的车辆 系统采用成熟稳定可靠的地感线圈和先进的视频分析检测技术,对于无后车牌或者为了逃避抓拍故意将后车牌遮挡的车辆同样能够准确抓拍,确保路口违章情况记录准确、完整,为交管部门实施交通管理措施、违章处罚等提供可靠线索和依据。 5、卡口车牌识别技术车牌识别像素、角度容忍度高 车牌识别技术具有较高的识别像素、角度容忍度,识别车牌大小范围可达到75像素到220像素;支持识别车牌存在一定程度的倾斜,倾斜±15°以内都能够正常识别。对于车牌的大小、车辆出现在画面中的远近、偏斜位置具有良好的适应能力,极大地提升了系统的实用性。 6、卡口车牌识别技术多车道、多车辆同时号牌识别 车牌识别不是一项孤立的技术,而是与实际应用结合紧密,充分考虑到系统应用的各种实际情况,针对多车道、多辆车同时号牌识别也进行了专门设计。一些厂家采用的是最先进的视觉分析算法,不仅能够在极短的时间内对画面中的所有车牌实现快速定位、快速识别并输出识别结果,而且同样能够保证极高的车牌识别率。 结语 车牌识别系统经过多年的发展,已是一项较为成熟的技术。传统的车牌识别系统基于模拟标清图像来进行检测和识别,由于标清图像分辨率低,层次感不强且视场较小等原因,导致车牌识别不能达到理想的效果,往往为了达到车牌识别率而需要牺牲车辆全景,因此需要通过两台摄像机配合来完成车牌的特写和车辆全景的记录,系统复杂度较高。 相信在未来几年,随着各地高清智能交通系统的不断应用建设,车牌自动识别技术会逐步向高清化、集成化、智能化发展,在各个应用系统中,将会不断发挥其越来越重要的作用 技术支持:18611928359 QQ:562638016 原文章作者:计算机图像识别,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    最后回复 邬国 2021-12-29 08:33
    2647 0
  • 让机器人学会识别透明物体
    文 / Synthesis AI 研究工程师 Shreeyak Sajjan 和 Google 机器人团队研究员 Andy Zeng 来源:TensorFlow 光学 3D 距离传感器已在机器人领域得到广泛应用(如:自动驾驶汽车, 自动机械手,RGB-D 相机和激光雷达 (LIDAR) 等),可为相关场景生成完整、准确的 3D 环境绘图。 尽管这些复杂的机器人系统已被应用于多领域,但遇到透明物体(如玻璃容器)时,哪怕是再昂贵的传感器也会失效。这是因为光学 3D 传感器使用的算法均假设:所有表面皆可产生 理想散射(Lambertian 反射,即表面会朝各个方向均匀反射光线),无论从何种角度观察,物体表面的亮度都相同。但这一假设不适用于透明物体,因为其表面既折射光线又反射光线,因此感测器通常无法正确获取透明物体的深度数据。 传感器通常无法检测到透明物体。右上:Intel RealSense D415 RGB-D 相机拍摄的 3D 深度图像无法正常检测到玻璃瓶。底图:进行深度重建的点云 让机器更有效地感知透明物体的表面,不仅有助于提升安全性,还能在复杂的实际应用中实现一系列新的互动操作,如让机器人整理厨具、分捡可回收塑料、进行室内环境导航或在玻璃桌面上生成 AR 可视化效果等(电影常见特效)。 为解决这一问题,我们同 Synthesis AI 和 哥伦比亚大学的研究人员合作开发了 ClearGrasp 机器学习算法,能从 RGB-D 图像中估算透明物体的高精度 3D 数据。该算法的成功得益于一个 大规模合成数据集(已公开)。 ClearGrasp 对任何一部标准 RGB-D 相机提供的输入图像均有效,它能通过深度学习准确重建透明物体的深度信息,并泛化到训练期间从未出现的新物体上。这与总是需要预先了解透明物体的信息(例如其物体的 3D 模型),有时通常还需结合使用背景照明图和相机位置的 旧方法(基于位置-法线一致的三维物体重建,CVPR2016)明显不同。在这项研究中,我们将 ClearGrasp 集成到分拣机器人的控制系统中,观察到机器人抓取透明塑料物体的成功率得到了显著提升。 ClearGrasp 使用深度学习来重建透明物体表面的高精度 3D 深度数据 透明物体的可视数据集 任何有效的深度学习模型都需要大量训练数据(例如,训练视觉需要 ImageNet、训练 BERT需要维基百科),ClearGrasp 也不例外。但很遗憾,我们并没有现成可用的透明物体 3D 数据集。现有 3D 数据集(如 Matterport3D或 ScanNet)都会忽略透明物体表面数据,因为标记过程昂贵且耗时。 为解决此问题,研究人员创建了一个 大型透明物体数据集,其中包含 50000 多个拟真渲染图以及对应的表面法线(代表表面曲率)、分割蒙版、边缘和深度等信息,可用于训练各种 2D 和 3D 检测任务。每个图像最多包含五个透明物体,这些物体有的放置在平面上,有的位于提包内,背景和照明情况也各不相同。 ClearGrasp 合成数据集中包含的一些透明物体数据示例 我们还加入了由 286 个真实场景图像组成的测试集,每个图像都具有相应的真实深度。真实场景图像的拍摄过程十分复杂,我们需要将场景中的每个透明物体替换为一模一样的不透明物体。并且在拍摄时,我们营造了多种不同的室内照明条件,并使用了不同材质的背景(如织物和木板等),场景周围还随机散布有不透明物体。图像中既包含合成训练集中出现的已知物体,也包含从未出现的新物体。 左图:真实场景图像拍摄布置,中间图:自定义场景与使用不透明的复制品精确替换每个透明物体,右图:拍摄数据示例 挑战 尽管通过透明物体看到的扭曲背景视图会扰乱普通的深度估算方法,但仍可隐约看清物体的形状;透明物体表面会出现镜面反射,或在光线充足的环境中显示成亮点。这类视觉提示在 RGB 图像中十分明显,并且主要受物体形状的影响。因此卷积神经网络可以使用这些线索来推理出准确的表面法线,并用于估算深度。 透明物体上的镜面反射特征鲜明,有助于提示物体形状,并为估算表面法线提供视觉线索 大多数机器学习算法试图直接从 单眼 RGB 图像 (Monocular RGB image) 中估算深度,但即使对于人类而言,单眼深度估算也是一个艰巨的任务。尤其在平坦背景上,估算深度会存在很大误差,如果在此类背景前放置透明物体,误差会被进一步放大。因此我们认为,与其直接估算所有几何图形的深度,不如校正 RGB-D 3D相机的初始深度估算值——这样我们就可以利用非透明物体表面的深度,来推定透明物体表面的深度。 ClearGrasp 算法 ClearGrasp 使用 3 个神经网络:一个用于估算表面法线,一个用于遮挡边界(深度不连续),最后一个用于分割透明物体并生成对应的蒙版。蒙版用于排除透明物体的像素,以便填充正确的深度。 然后,我们使用一种全局优化模块来矫正已知表面的深度,并使用预测出的表面法线来帮助物体形状的重建,同时利用预测出的遮挡边界保持不同物体之间分离。 方法概述:使用输出的深度数据生成点云,并根据表面法线对其着色 实验结果 总体而言,我们的 定量实验 (见论文)表明:在用 ClearGrasp 重建透明物体的深度时,我们的保真度远高于 其他替代方法。尽管只是使用 ClearGrasp 合成数据集进行训练,模型同样能够很好适应真实场景,对不同环境的已知物体也能取得非常相似的定量重建性能。此外,我们的模型还能有效泛化到之前从未出现且形状复杂的新物体上。 模型对真实图像的定性结果。上两行:对已知物体的定性结果。下两行:对新物体的定性结果。由对应的深度图像生成的点云根据表面法线着色 最重要的是,对于使用 RGB-D 图像的精尖 (SOTA, State-of-The-Art) 操控算法,ClearGrasp 的输出深度数据可直接用作其输入。在由原始传感器数据转为使用 ClearGrasp 的输出深度估算值后,UR5 机械臂上采用的抓取算法在透明物体抓取成功率方面已有大幅提升。平行抓手的成功率已从基准率 12% 提高到 74%,吸爪的成功率也已从 64% 提高到 86%。 使用 ClearGrasp 抓取新的透明物体。请注意一些高难度条件:如无纹理背景、复杂的物体形状、定向光导致的混乱阴影和焦散(Caustic, 光线从表面反射或折射时出现的光照图案)等 局限与未来研究方向 ClearGrasp 合成数据集的局限在于,由于渲染受到传统路径跟踪算法的限制,该数据集无法准确体现焦散现象。最终,这会使模型将明亮的焦散与阴影的结合体错当成独立的透明物体。尽管存在这些缺陷,我们对 ClearGrasp 的研究依旧能够表明:ClearGrasp 合成数据仍可作为一种可行途径,帮助基于学习的深度重建方法取得令人满意的结果。在未来的研究中,我们已经看到一个充满前景的方向:我们可以通过开发能正确渲染焦散和表面瑕疵(如指纹)的渲染器改善从数据集到真实场景迁移的效果。 通过对 ClearGrasp的研究,我们能够证明:高质量渲染图有助于训练成功的模型,使模型在现实场景中作出良好表现。我们希望此 数据集将有助于推动对透明物体数据驱动感知算法的进一步研究。您可以在我们的 项目网站和 GitHub 代码库中找到下载链接和更多示例图像。 致谢 本研究由以下人员合作完成:Shreeyak Sajjan (Synthesis.ai)、Matthew Moore (Synthesis.ai)、Mike Pan (Synthesis.ai)、Ganesh Nagaraja (Synthesis.ai)、Johnny Lee、Andy Zeng 和 Shuran Song(哥伦比亚大学)。特此感谢 Ryan Hickman 提供管理支持、Ivan Krasin 和 Stefan Welker 与我们进行成果丰硕的技术讨论、Cameron (@camfoxmusic) 分享他的药瓶 3D 模型,另外还要感谢 Sharat Sajjan 帮助我们设计网页。 如果您想详细了解 本文提及 的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题: ClearGrasp 论文 https://arxiv.org/abs/1910.02550 ClearGrasp 大型透明物体数据集 https://sites.google.com/view/transparent-objects CearGrasp 项目网站 https://sites.google.com/view/cleargrasp ClearGrasp GitHub 代码库 https://github.com/Shreeyak/cleargrasp 自动机械手 https://ai.googleblog.com/2019/03/unifying-physics-and-deep-learning-with.html RGB-D 相机 https://rosindustrial.org/3d-camera-survey Synthesis AI http://synthesis.ai/ 哥伦比亚大学 https://shurans.github.io/group.html 旧方法 http://openaccess.thecvf.com/content_cvpr_2016/papers/Qian_3D_Reconstruction_of_CVPR_2016_paper.pdf ImageNet http://www.image-net.org/ BERT https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html Matterport3D https://niessner.github.io/Matterport/ ScanNet http://www.scan-net.org/ 其他替代方法 https://arxiv.org/abs/1812.11941 抓取算法 https://www.universal-robots.com/products/ur5-robot/ 目标检测作为计算机视觉的经典任务之一,一直受到学术界和工业界的广泛关注。随着研究的深入,大尺度图像中微小目标检测等子问题,以及当前的检测算法固有的方法缺陷等问题,也得到更多的研究。SFFAI56期—目标检测专场,我们围绕以上问题,邀请了两位学者:柯炜、余学辉分享他们分别发表在WACV2020和CVPR2020上的新工作。 期待3月22日与您相聚SFFAI直播间! 详情点击: SFFAI 56 X CRIPAC报名通知 | 目标检测专场 原文章作者:人工智能前沿学生论坛,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-29
    2077 0
  • 行人重识别技术 安防下一个目标
    【 中国安防展览网 焦点新闻】人脸识别技术是搭建平安城市的重要一环。通过人脸识别技术以及深度学习算法,城市监控可以将视频监控数据结构化存储,并分析挖掘关键信息,实现事前预防。然而在实际应用的场景中,摄像头并非在任何情况下都可以拍摄到清晰人脸。因口罩、帽子等遮挡,民警和识别系统都无法用人脸特征判定身份。 行人重识别 安防下一个目标 不仅如此,在实际场景中,一个摄像头往往无法覆盖所有区域,而多个摄像头之间一般也没有重叠。因此,用全身信息来对人员进行锁定和查找就变得十分必要——即通过将整体行人特征作为人脸之外的重要补充,实现对行人的跨摄像头跟踪。当下,计算机视觉领域开始逐渐展开针对“行人重识别”技术的研究工作。 行人重识别(Person Re-Identification,简称 ReID),从字面意思理解就是对行人进行重新识别,是对不同的、没有视野重叠覆盖的(non-overlapping)摄像机拍摄的行人图像建立对应关系的处理过程。当摄像头拍摄范围之间不存在重叠时,由于没有了连续信息,检索难度也随之增大非常多。因此,行人重识别强调的是在跨摄像机的视频中对特定行人进行检索。 “行人重识别”与“行人检测”的区别 如果说行人检测是要机器判定图像中是否存在行人,那么行人重识别就是要机器识别出不同摄像机拍摄的特定人员的所有图像。具体说,就是给定某人的一张图片(query image),从多张图片(gallery images)中找到属于他/她的那一张或多张,是通过行人整体特征实现的人员比对技术。 主要应用领域的区别:“行人重识别”主要应用于刑侦工作、图像检索等方面。“行人检测”主要用于智能驾驶、辅助驾驶和智能监控等相关领域。 为了更好的理解这个问题,知乎上郑哲东提出几个补充问题: 1. 能不能用人脸识别做重识别? 理论上是可以的。但是有两个原因导致人脸识别较难应用:首先,广泛存在后脑勺和侧脸的情况,做正脸的人脸识别难。其次,摄像头拍摄的像素可能不高,尤其是远景摄像头里面人脸截出来很可能都没有32x32的像素。所以人脸识别在实际的重识别应用中很可能有限。 2.有些人靠衣服的颜色就可以判断出来了,还需要行人重识别么? 衣服颜色确实是行人重识别做出判断一个重要因素,但光靠颜色是不足的。首先,摄像头之间是有色差,并且会有光照的影响。其次,有撞衫(颜色相似)的人怎么办,要找细节,但比如颜色直方图这种统计的特征就把细节给忽略了。在多个数据集上的测试表明,光用颜色特征是难以达到50%的top1正确率的。 行人重识别领域研究现状 行人重识别问题中的图片来源于不同的摄像头,然而,由于不同摄像头所处的角度、光照等环境的影响,行人重识别问题具有以下几个特点: 由于实际监控环境中,无法使用脸部的有效信息,所以,只能利用行人的外貌特征来进行识别。在不同摄像头中,由于尺度、光照和角度的变化,同一个行人的不同图片中,外貌特征会有一定程度的变化。由于行人姿势及摄像头角度的变化,在不同摄像头中,不同行人的外貌特征可能比同一个人的外貌特征更相似。 针对以上几个特点,计算机视觉领域的研究人员在最近几年里进行了大量的研究工作。 目前,行人重识别领域的研究工作主要分为大致两类:研究行人对象的特征表示方法,提取更具有鲁棒性的鉴别特征对行人进行表示。使用距离度量学习方法,通过学习一个有判别力的距离度量函数,使得同一个人的图像间距离小于不同行人图像间的距离。 行人重识别具有高应用价值 但仍依赖于大量人力的投入 行人重识别在公共安防的侦察工作中以及图像检索等场景中有很高的应用价值。除此之外,行人重识别还可以帮助手机用户实现相册聚类、帮助零售或商超经营者获取有效的顾客轨迹、挖掘商业价值。 从产业界来看,不管是老牌的计算机视觉公司如海康威视,还是新晋独角兽face++,商汤科技,亦或是一些像BAT,华为等科技巨头们都对行人重识别非常关注。从政策上来,行人重识别也受到一定关注。公安部推出平安城市概念,并且发布了多项预研课题,相关行业标准也在紧锣密鼓制定当中。然而,受限于行业水平,目前行人重识别的精准度并不高,很多工作仍依赖于大量人力的投入。 结语 目前,行人重识别技术在实战场景中还有更多的挑战要应对。希望行人重识别技术技术能进一步成熟,为安防行业发展打开新市场。 (本文根据中国网、新智元、知乎-郑哲东、CSDN、雷锋网信息整理,中国安防展览网编辑发布) 原文章作者:中国安防展览网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    最后回复 窑屋 2021-12-28 19:51
    1284 0
  • CVPR 2019 | 旷视研究院提出Re-ID新方法VPM,优化局部 ...
    全球计算机视觉三大顶级会议之一 CVPR 2019 将于当地时间 6 月 16-20 日在美国洛杉矶举办。届时,旷视研究院将带领团队远赴盛会,助力计算机视觉技术的交流与落地。在此之前,旷视每周会介绍一篇被 CVPR 2019 接收的论文,本文是第 13 篇。围绕行人再识别,并针对实际情况下行人经常被遮挡、仅能被部分成像这一困难,旷视研究院提出一种可见部件感知模型 VPM,其可通过自监督学习感知哪些部件可见或不可见,并在比较两幅图像时,聚焦在二者共同可见的部件上,显著提高部分成像下的行人再识别准确率。 论文名称:Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification 论文链接:https://arxiv.org/abs/1904.00537 导语简介方法 VPM 结构 部件定位器部件特征提取器 使用 VPM训练 VPM 自监督 实验 大规模数据集实验对比 SOTA 结论参考文献 导语 近年来,行人再识别研究取得迅速进展,2018 年下,在公开数据集 Market-1501 上,SOTA 方法的一选准确率已达到 95% 甚至更高水平;与此同时,CV 产业界也开始发力,推动其场景落地。但是在实际 re-ID 系统中,一些极具挑战性的问题正等待克服,部分成像下的行人再识别(partial re-ID)即是其中之一。 在 partial re-ID 场景下,图像可能只包含行人的部分可见信息,例如腿部被遮挡、只有上半身被成像。此时,未经针对性设计的行人再识别方法通常会遭遇性能“滑铁卢”,无法再准确识别行人。 为此,旷视研究院联合清华大学,提出一种可见性感知局部模型 VPM(Visibility-aware Part Model),通过自监督学习感知哪些部件可见/不可见(这种能力称之为“可见部件感知能力”),并在比较两幅图像时,聚焦在共同可见的部件上,显著提高部分成像下的行人再识别准确率。 对于 partial re-ID,VPM 具有两方面的优势:1)VPM 引入了部件特征,因此,与在传统全身的行人再识别(holistic re-ID)问题中一样,部件特征受益于细粒度信息,获得更好的鉴别能力;2)由于具备可见部件感知能力,VPM 可估计出两张图像之间的共享区域,并在评估其相似性时聚焦在共享区域,这种做法符合人脑识别行人的思维习惯。 实验结果证明,VPM 可显著改善特征表达,在 re-ID、尤其是 partial re-ID 问题上取得了优异性能。 简介 行人再识别需要在行人图像库中,检索出特定身份行人的所有图像。尽管近年来进展迅速,但在实际应用之前,依旧遇到了一系列严峻挑战,其中之一是局部成像问题。在实际的 re-ID 系统中,一个行人可能被其他物体部分遮挡,或是正在走出摄像机视场,因此相机经常无法对行人进行全身成像,产生所谓的局部成像下的行人再识别问题——partial re-ID。 ▲图1:局部再识别的两项挑战 (a)、(b) 以及旷视研究院提出的VPM方法 (c) 直觉上来讲,局部成像必然加大行人检索难度;若仔细分析可以发现,相较于整体的行人再识别,局部成像又额外引入了两项特有挑战: 1. 局部成像加剧了查询(query)图像与库(gallery)图像之间的空间错位。全局 re-ID 场景下,空间错位主要源自行人姿态变化和观察视角的变换;然而在局部成像条件下,即便两个行人姿态相同,从同一个视角观察,两张图像间依然存在严重的空间错位(如图1(a))。 2. 如果生硬地比较全身图像和半身图像,二者之间不共享的区域(如图 1(b)中蓝色区域)不仅不再提供有益的线索,反而引入了额外的干扰噪声。这种额外噪声在对比两幅缺失程度不同的图像时也会发生。 针对上述挑战,旷视研究院提出可见部件感知模型 VPM。给定一幅行人图像,VPM 能够感知哪些区域缺失、哪些区域可见,通过聚焦于两幅图共享的区域,VPM 避免或是说缓解了上述与局部重识别相关的两个特殊困难(如图1(c))。 值得强调的是,VPM 不依赖于头部、躯干等语义部件,而是依赖于预先定义的方形区域作为部件。这种做法被 PCB 推广,其性能在全身行人在识别问题上已超过语义部件特征学习。本文把这种思路进一步延续:部件特征学习并不需要依赖人类习惯的语义部件,采用预先定义的方形部件高效且准确率可能更高。VPM 正是由于采用这种做法,不再需要代价高昂的语义部件学习,仅仅通过自动监督学习,即可获得最关键的可见部件感知能力。 具体而言,旷视研究员首先在完整出现了人体的图像上定义一系列区域。在训练过程中,给定局部行人图像,VPM 可以学习去定位所有在卷积特征图上的预定义区域。之后,VPM 会感知可见的区域,并学习区域层级的特征。在测试过程中,给定两张待比较的图像,VPM 首先会计算其共享区域之间的本地距离,然后得出两张图像的总体距离。 方法 VPM 结构 ▲图2:VPM结构图示 VPM 是一个全卷积网络,结构如图 2 所示。本文在完整的行人图像上预先定义一个固定的部件分割,将图像分成 p 个部件(如图 2 分成上、中、下三个部件,即 p=3)。对于每一幅行人图像,VPM 输出固定数量的部件特征,以及相应的部件可见性得分。 注意,即使当前输入图像有一些部件不可见(例如图 2 中输入图像的下端部件实际不可见),VPM 依旧会为所有部件分别产生一个部件特征(包括那些不可见部件),但不可见部件的可见性得分将很低(趋于零)。这样,VPM 就能够知道哪些部件特征有效,哪些部件特征无效、不予采信。 为了实现上述功能,VPM 在卷积层输出 Tensor T 上附加一个部件定位器和一个部件特征提取器,前者通过自监督学习,学习 Tensor T 上的部件位置(及可见性得分),接着,后者则为每个部件生成一个相应特征。 自监督学习的构建非常直观,如图 2 所示。本文在完整的行人图像上预先定义一个固定的部件分割,将图像分成 p 个部件,然后裁剪,把裁减后的图像缩放到固定尺寸输入给 VPM。由于裁减参数可自动获取,从而自然知道哪些部件是可见的(如图中的上、中两个部件),哪些部件是不可见的(如图中的下端部件)。具体训练方法请参见“训练VPM”。 部件定位器 部件定位器直接在 T 上预测各个部件 pixel-wise 的分布(也可以理解为一个图像分割器,只不过分割的对象是预先定义好的部件),从而感知哪些区域可见。为此,部件定位器在 T 上使用一层 1 × 1 卷积及一个 Softmax 函数来构建一个 pixel-wise 的部件分类器,这个公式并不必要,但是为了后面引用时清晰明确,将其如下列出: http://5b0988e595225.cdn.sohucs.com/images/20190614/133ca3b24efa477193855b1a33d6744b.png 这个部件分类器实际上将产生 p 个分布概率图,每个分布概率图对应一个预先定义好的部件。这个分布概率图以 soft mask 的形式,直接指示出各个部件的位置。如果一个部件实际上不可见,那么对应于它的分布概率图应该处处为零,即各个像素属于这个部件的概率很小。 自然地,把各个概率图加起来,即可得到相应的区域可见性得分 C。这个做法非常直观:如果一个部件的分布概率图处处很小,那么这个部件可见性则很低(即可能不可见)。 部件特征提取器 得到部件的概率分布图后,就可以简单地利用带权池化提取部件特征。公式同样很简单: http://5b0988e595225.cdn.sohucs.com/images/20190614/f1c964d6405842ea9ec7f0cd8ecdfd89.png 再次强调,通过上述公式,VPM 会给每个预先定义好的部件产生一个特征,即使某个部件实际不可见,但这没关系,因为实际上已知道这个部件不可见,因此可不采信这个部件特征。具体如下节介绍。 使用 VPM 给定两幅待比较的图像、,VPM 将提取其部件特征,并分别预测所有部件的可见性分数,即、。为了度量两幅图像的相似性,首先计算各个部件之间的欧氏距离。在部件距离的基础上,结合部件可见性得分,VPM 能够推导两幅图像间的总体距离: http://5b0988e595225.cdn.sohucs.com/images/20190614/564313d10bf8465e8617117afa39da11.png 上式的效果是:采信可见区域之间的距离,忽视不可见区域之间的距离。换而言之,可见部件的距离将主导总体距离;相反,如果一个部件在任何图像中没出现,那么其部件特征则被认为不可靠,无法对产生明显影响。 这样的调用过程非常高效:与 PCB 这种实用方法相比,VPM 仅仅增加了一层卷积运算用于预测部件可见性,计算距离则几乎不增加时间(仅仅多了公式 4 所示的加权平均)。这使得 VPM 成为了为数不多的、能够在 Market-1501 数据集上开展 partial re-ID 实验的方法(也具有在大规模实际数据集上应用的潜力)。 训练 VPM VPM 的训练包含 1)部件定位器的训练和 2)部件特征提取器的训练。两者在 Tensor T 之前共享卷积层,并以多任务的方式被端到端训练。部件定位器的训练依靠自监督学习,而训练部件特征提取器也需要自监督信号进行辅助。由实验可知,自监督学习对 VPM 的性能至关重要。 自监督 自监督对于 VPM 十分关键,它监督 VPM 学习部件定位器,并要求 VPM 在学习部件特征时,放弃对不可靠的部件特征的监督,仅仅对可见区域施加监督。 部件定位器的训练类似 Segmentation 训练,这里仅强调一下:Label 信息由自监督产生。部件特征的学习虽然也采用了常用的分类+度量学习联合训练,但需要做一些重要调整,如图 3 所示。 ▲图3:VPM通过辅助性自监督学习区域特征 由于 VPM 会为所有部件分别生成一个部件特征,这导致在学习特征时出现一个非常重要的问题:只有可见部件的特征被允许贡献训练损失。借助自监督信号,旷视研究员动态地为特征学习选择可见区域。实验结果表明,如果不加区分地对所有部件特征施加监督,re-ID 准确率将剧烈降低。 总结一下,自监督对训练 VPM 的贡献体现在 3 个方面: 1. 自监督生成 pixel-wise 的部件标签用以训练部件定位器(类似于 Segmentation); 2. 在利用分类损失函数(Softmax Loss)学习部件特征时,自监督使 VPM 仅仅关注可见部件; 3. 利用度量学习(Triplet)学习部件特征时,自监督使 VPM 专注于图像的共有区域。 实验 大规模数据集实验 本文首先利用两个大型全身 re-ID 数据集(Market-1501 和 DukeMTMC-reID)合成相应的部分成像 re-ID 数据集上的实验评估 VPM 的有效性。 本文用了两种基线作为对比:首先是一个学习全局特征的基线,它是利用分类损失函数和三元组损失函数联合训练的;第二个基线则是非常流行的全身部件特征模型 PCB。实验结果如表 1 所示,可以看到 VPM 相对这两种基线都有明显提高。 ▲表1:VPM、baseline与PCB之间的对比 对比 SOTA 本文在两个公开数据集 Partial-REID 和 Partial-iLIDS 把 VPM 与当前最佳方法做了对比。本文训练了 3 个版本的 VPM:1)VPM(bottom),训练时总是丢弃随机比例的上半身,而下部区域可见;2)VPM(top),训练时总是丢弃随机比例的下半身,而图像的上部区域总是可见;3)VPM(bilateral),训练时,图像的上部和下部区域都有可能被随机比例丢弃。对比结果如表 2 所示。 ▲表2:VPM在Partial-REID和Partial-iLIDS上的评估结果 可以看到,训练时的 crop 策略对性能是有影响的,VPM(bottom)结果比较差。这是因为首先大部分数据集以及在实际情况中,大部分图像是下半身缺失,而上半身可见,VPM(bottom)在训练时的策略相反,背离了现实;此外,一般来讲,上半身能够提供的可鉴别线索本身就更为丰富。 文中还进行了一些其它有意思的实验,例如通过 Ablation Study 分析各个环节中自监督对 VPM 性能的影响,VPM 定位各个部件的可视化实验。 结论 本文提出一个基于可见部件感知的行人特征学习方法——VPM,它可解决局部成像下的行人再识别问题。延续 PCB 的思路,VPM 没有采用语义部件这种直观做法,而是采用了均匀分割产生若干预定义的部件。通过自监督学习,VPM 能够感知哪些部件可见、哪些部件缺失,并决定应该如何具体对比两幅图像。实验结果表明,VPM 同时超越了全局特征学习基线和部件特征学习基线,并在公开的 partial re-ID 数据集上取得了国际领先水平。 参考文献 L. He, J. Liang, H. Li, and Z. Sun. Deep spatial feature reconstruction for partial person re-identification: Alignment-free approach. CoRR, abs/1801.00881, 2018. Y. Sun, L. Zheng, Y. Yang, Q. Tian, and S. Wang. Beyond part models: Person retrieval with refined part pooling. In ECCV, 2018. L. Zhao, X. Li, J. Wang, and Y. Zhuang. Deeply-learned part-aligned representations for person re-identification. In ICCV, 2017. L. Zheng, L. Shen, L. Tian, S. Wang, J. Wang, and Q. Tian. Scalable person re-identification: A benchmark. In ICCV, 2015. L. Zheng, Y. Yang, and A. G. Hauptmann. Person re-identification: Past, present and future. arXiv preprint arXiv:1610.02984, 2016. W. Zheng, S. Gong, and T. Xiang. Person re-identification by probabilistic relative distance comparison. In The 24th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2011, Colorado Springs, CO, USA, 20-25 June 2011, 2011. W. Zheng, X. Li, T. Xiang, S. Liao, J. Lai, and S. Gong. Partial person re-identification. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, December 7-13, 2015, 2015. Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. In ICCV, 2017. 传送门 欢迎各位同学关注旷视研究院视频分析组(以及知乎专栏「旷视Video组」:https://zhuanlan.zhihu.com/r-video),简历可以投递给负责人张弛(zhangchi@megvii.com)。 往期解读: 点击以下标题查看更多往期内容: #投 稿 通 道# 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。 总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。 来稿标准: 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志 投稿邮箱: 投稿邮箱:hr@paperweekly.site 所有文章配图,请单独在附件中发送 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通 现在,在「知乎」也能找到我们了 进入知乎首页搜索「PaperWeekly」 关于PaperWeekly PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。 ▽ 点击 | 原文章作者:PaperWeekly,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    1275 0
  • 机器视觉工业五大典型应用有哪些?
    从原理上机器视觉系统主要由三部分组成:图像的采集、图像的处理和分析、输出或显示。包括数字图像处理技术、机械工程技术、控制技术、光源照明技术、光学成像技术、传感器技术、模拟与数字视频技术、计算机软硬件技术、人机接口技术等。只有这些技术的相互协调应用才能构成一个完整的机器视觉应用系统。 根据这些领域,我们大致可以概括出机器视觉工业的五大典型应用,这五大典型应用也基本可以概括出机器视觉技术在工业生产中能够起到的作用。 图像识别应用 图像识别,是利用机器视觉对图像进行处理、分析和理解,以识别各种不同模式的目标和对象。图像识别在机器视觉工业领域中较典型的应用就是二维码的识别了,二维码就是我们平时常见的条形码中较为普遍的一种。将大量的数据信息存储在这小小的二维码中,通过条码对产品进行跟踪管理,通过机器视觉系统,可以方便的对各种材质表面的条码进行识别读取,提高生产效率。 图像检测应用 检测是机器视觉工业领域较主要的应用之一,几乎所有产品都需要检测,而人工检测存在着较多的弊端,人工检测准确性低,长时间工作的话,准确性更是无法保证,而且检测速度慢,容易影响整个生产过程的效率。因此,机器视觉在图像检测的应用方面也非常的广泛,例如:印刷过程中的套色定位以及较色检查、包装过程中的饮料瓶盖的印刷质量检查,产品包装上的条码和字符识别等;玻璃瓶的缺陷检测。机器视觉系统对玻璃瓶的缺陷检测,也包括了药用玻璃瓶范畴,也就是说机器视觉也涉及到了医药领域,其主要检测包括尺寸检测、瓶身外观缺陷检测、瓶肩部缺陷检测、瓶口检测等。 视觉定位应用 视觉定位要求机器视觉系统能够快速准确的找到被测零件并确认其位置。在半导体封装领域,设备需要根据机器视觉取得的芯片位置信息调整拾取头,准确拾取芯片并进行绑定,这就是视觉定位在机器视觉工业领域较基本的应用。 物体测量应用 机器视觉工业应用较大的特点就是其非接触测量技术,同样具有高精度和高速度的性能,但非接触无磨损,消除了接触测量可能造成的二次损伤隐患。常见的测量应用包括,齿轮,接插件,汽车零部件,IC元件管脚,麻花钻,罗定螺纹检测等。 物体分拣应用 实际上,物体分拣应用是建立在识别、检测之后一个环节,通过机器视觉系统将图像进行处理,实现分拣。在机器视觉工业应用中常用于食品分拣、零件表面瑕疵自动分拣、棉花纤维分拣等。 目前, 机器视觉最大应用领域:电子及半导体领域,高性能、精密的专业设备制造领域中机器视觉的应用十分广泛,比较典型的是国际范围内最早带动整个机器视觉行业崛起的半导体行业,从上游晶圆加工制造的分类切割,到末端电路板印刷、贴片,都依赖于高精度的视觉测量对于运动部件的引导和定位。在国际市场上,半导体制造行业对于机器视觉的需求占全行业市场需求的40%-50%。 在电子制造领域,小到电容、连接器等元器件,大到手机键盘、PC主板、硬盘,在电子制造行业链条的各个环节,几乎都能看到机器视觉系统的身影。机器视觉按应用功能划分,主要是四个方面:测量、检测、识别、定位。在检测环节中,3C自动化设备应用最高,有70%的机器视觉单位应用在该环节,在实际应用中,机器视觉检测系统可以快速检测排线的顺序是误,电子元器件是否错装漏装,接插件及电池尺寸是否合规等。 具体来看,机器视觉在电子制造领域的应用主要是引导机器人进行高精度PCB定位和SMT元件放置,还有表面检测,主要应用在PCB印刷电路、电子封装、丝网印刷、SMT表面贴装、SPI锡膏检测、回流焊和波峰焊等。 盈泰德科技针对医药、食品饮料、金属加工等领域在生产制造过程中难以避免的缺陷而自主研发了的3D视觉检测解决方案---3D视觉检测系统,在曾经的基础上进行了大幅度的软硬件的改进,能够更快更精准地进行缺陷检测,并得到中国广大企业的认可与赞美。 传感器是3D视觉检测系统的重要组成部分,它能检测被测量的信息然后再以其他所需形式输出。盈泰德科技3D视觉检测系统可以配有多种传感器以供选择合适的检测方案。 △点激光位移传感器 将点激光投射在被测量物体表面, 采集点激光所在位置之物体表面高度信息, 速度高达每秒32,000次。 适合测量 厚度, 高度, 表面粗糙度,可藉由移动被测量物体, 在点激光移动路径上生成物体表面线轮廓, 藉此测量线轮廓相关尺寸,可与PLC连接。 △线激光轮廓传感器 采用线激光投射在被测量物体表面, 快速建立线激光所在位置之物体剖面线轮廓。 内建之智能测量工具可完成剖面线轮廓相关测量, 如剖面几何特徵之长宽高, 面积, 角度及圆径等,可藉由沿线激光垂直方向上移动被量测物体, 等间距采集多条线轮廓以组成物体表面三维点云资料,内置三维点云测量工具, 包含三维体积及三维特征测量,可与PLC连接。 △结构光轮廓传感器 超强智能结构光轮廓传感器,将结构光投射在被测量物体表面, 快速建立物体表面三维点云资料,不需移动物体即可完整采集物体表面三维点云资料, 采集速度高达每秒5桢,适用于工业机器人三维空间对位引导。 盈泰德科技(深圳)有限公司有着多年的机器视觉行业经验,在机器视觉的应用领域上有着不少成功的案例和解决方案。盈泰德科技一直以来致力于机器视觉产品的生产、开发、应用以及销售,为客户提供整体机器视觉解决方案及服务,把机器视觉技术应用到智能生产中。 转自:https://www.0755vc.com 原文章作者:盈泰德科技,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    2140 0
  • 人工智能之OCR识别技术简析
    文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分。计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。 OCR技术的兴起便是从印刷体识别开始的,印刷体识别的成功为后来手写体的发展奠定了坚实的基础。印刷体识别的主要流程大致分为以下几个部分:图像预处理、版面处理、图像切分、特征提取和模型训练、识别后处理。 图像预处理 输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。 版面处理 版面处理分为三个主要部分,版面分析、版面理解、版面重构。 版面分析将文本图像分割为不同部分,并标定各部分属性,如:文本、图像、表格。目前在版面分析方面的工作核心思想都是基于连通域分析法,后衍生出的基于神经网络的版面分析法等也都是以连通域为基础进行的。连通域是指将图像经过二值化后转为的二值矩阵中任选一个像素点,若包围其的所有像素点中存在相同像素值的像素点则视为两点连通,以此类推,这样的像素点构成的一个集合在图像中所在的区域即一个连通域。根据连通域大小或像素点分布等特征可以将连通域的属性标记出来,用作进一步处理的依据。 图像切分 图像切分大致可以分为两个主要类别,行(列)切分和字切分。经过切分处理后,才能方便对单个文字进行识别处理。 特征提取与模型训练 特征提取与模型训练在深度学习广泛应用于图像识别领域之前,模板匹配是较为常见的一种识别方式,之后由于神经网络的复苏,基于反馈的神经网络给OCR领域带来了又一春。现在随着计算机硬件计算能力的提升,利用大批数据训练深度神经网络在图像识别方面取得了傲人的成绩。 特征提取是从单个字符图像上提取统计特征或结构特征的过程。特征匹配是从已有的特征库中找到与待识别文字相似度最高的文字的过程。 识别后处理 识别校正是在识别结果基础上根据语种的语言模型进行,当然在单文种识别中相对容易一些,而在多语种则较为复杂。 OCR的应用案例有哪些 印刷体识别应用扩展较多且技术发展较为成熟,无论在识别准确率方面还是在识别效率方面,都达到了较高的标准。 车牌识别 车牌识别系统是OCR工业化应用较早而且成功的典型案例,如今从停车场到小区门禁,车牌识别技术已走进生活的各个角落。 验证码识别 验证码的主要目的是强制人机交互来抵御机器自动化攻击的。验证码作为一种辅助安全手段在Web安全中有着特殊的地位,验证码安全和web应用中的众多漏洞相比似乎微不足道,但是千里之堤毁于蚁穴,有些时候如果能绕过验证码,则可以把手动变为自动,对于Web安全检测有很大的帮助。 张卫伟整理 原文章作者:中国青年网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-28
    1478 0
  • 浅析计算机视觉的发展历史
    “看”是人类与生俱来的能力。刚出生的婴儿只需要几天的时间就能学会模仿父母的表情,人们能从复杂结构的图片中找到关注重点、在昏暗的环境下认出熟人。随着人工智能的发展,机器视觉技术也试图在这项能力上匹敌甚至超越人类,那么你对计算机视觉的发展历史了解么?知道它是如何应用于图像检测、缺陷检测等领域的么?   发展历史过程 人脸识别 1966年,人工智能学家Minsky在给学生布置的作业中,要求学生通过编写一个程序让计算机告诉我们它通过摄像头看到了什么,这也被认为是计算机视觉最早的任务描述。 七八十年代,随着现代电子计算机的出现,计算机视觉技术也初步萌芽。人们开始尝试让计算机回答出它看到了什么东西,于是首先想到的是从人类看东西的方法中获得借鉴。 借鉴之一是当时人们普遍认为,人类能看到并理解事物,是因为人类通过两只眼睛可以立体地观察事物。因此要想让计算机理解它所看到的图像,必须先将事物的三维结构从二维的图像中恢复出来,这就是所谓的“三维重构”的方法。 借鉴之二是人们认为人之所以能识别出一个苹果,是因为人们已经知道了苹果的先验知识,比如苹果是红色的、圆的、表面光滑的,如果给机器也建立一个这样的知识库,让机器将看到的图像与库里的储备知识进行匹配,是否可以让机器识别乃至理解它所看到的东西呢,这是所谓的“先验知识库”的方法。 这一阶段的应用主要是一些光学字符识别、工件识别、显微/航空图片的识别等等, 九十年代,计算机视觉技术取得了更大的发展,也开始广泛应用于工业领域。一方面原因是CPU、DSP等图像处理硬件技术有了飞速进步;另一方面是人们也开始尝试不同的算法,包括统计方法和局部特征描述符的引入。 进入21世纪,得益于互联网兴起和数码相机出现带来的海量数据,加之机器学习方法的广泛应用,计算机视觉发展迅速。以往许多基于规则的处理方式,都被机器学习所替代,自动从海量数据中总结归纳物体的特征,然后进行识别和判断。 这一阶段涌现出了非常多的应用,包括典型的相机人脸检测、安防人脸识别、车牌识别等等。 2010年以后,借助于深度学习的力量,计算机视觉技术得到了爆发增长和产业化。通过深度神经网络,各类视觉相关任务的识别精度都得到了大幅提升。 在全球最权威的计算机视觉竞赛ILSVR(ImageNet Large Scale VisualRecognition Competition)上,千类物体识别Top-5错误率在2010年和2011年时分别为28.2%和25.8%,从2012年引入深度学习之后,后续4年分别为16.4%、11.7%、6.7%、3.7%,出现了显著突破。 计算机视觉技术的应用场景也快速扩展,除了在比较成熟的安防领域应用外,也有应用在金融领域的人脸识别身份验证、电商领域的商品拍照搜索、医疗领域的智能影像诊断、机器人/无人车上作为视觉输入系统等,包括许多有意思的场景:照片自动分类(图像识别+分类)、图像描述生成(图像识别+理解)等等。 计算机视觉中的三个概念 计算机视觉:指对图像进行数据采集后提取出图像的特征,一般处理的图像的数据量很大,偏软件层 机器视觉:处理的图像一般不大,采集图像数据后仅进行较低数据流的计算,偏硬件层,多用于工业机器人、工业检测等 图像处理:对图像数据进行转换变形,方式包括降噪、、傅利叶变换、小波分析等,图像处理技术的主要内容包括图像压缩,增强和复原,匹配、描述和识别3个部分。 计算机视觉是指利用计算机来模拟人的视觉,是人工智能中的“看”。从技术流程上来说,分为目标检测、目标识别、行为识别三个部分。根据识别的目标种类可以分为图像识别、物体识别、人脸识别、文字识别等。在智能机器人领域,计算机视觉可以对静态图片或动态视频中的物体进行特征提取、识别和分析,从而为后续的动作和行为提供关键的信息。 近年来,基于计算机视觉的智能视频监控和身份识别等市场逐渐成熟扩大,机器视觉的技术和应用趋于成熟,广泛应用于制造、 安检、图像检索、医疗影像分析、人机交互等领域。 本文来源于:http://www.0755vc.com 原文章作者:盈泰德科技,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-27
    1009 0
  • 算法创新 | 行人再识别 (ReID) 首次超越人类水平 继人脸识别后 ...
    转自:新智元 编辑:闻菲 【新智元导读】行人再识别(ReID)是近年来计算机视觉的一个研究重点,即给定一个监控行人图像,跨设备检索该行人的图像。由于不同摄像设备之间存在差异,行人外观易受穿着、尺度、遮挡、姿态和视角等影响,行人再识别是一个既具研究价值同时又极富挑战性的课题。日前,旷视科技Face++的研究团队,让机器在行人再识别(ReID)上首次超越人类,创下了行业纪录。 旷视科技首席科学家、研究院院长孙剑表示:“我非常高兴看到又一个非常难且有巨大应用价值的图像感知问题,被旷视科技团队的算法超越了人类性能。”研究人员表示,这为目前机器代替人类处理大量以人为中心的图像或视频理解问题带来了更强大的技术。 近年来,人脸识别技术的成熟使得机器在辨别人脸的能力上大举超过人类,在构建“智慧城市”、“平安城市”等方面也得到了广泛应用。然而在实际应用的场景中,摄像头并非在任何情况下都可以拍摄到清晰人脸。不仅如此,在实际的场景中,一个摄像头往往无法覆盖所有区域,而多摄像头之间一般也没有重叠。 因此,用全身信息来对人员进行锁定和查找就变得十分必要——通过将整体行人特征作为人脸之外的重要补充,实现对行人的跨摄像头跟踪。于是,计算机视觉领域开始逐渐展开针对“行人再识别”技术的研究工作。 行人再识别:实际意义重大,目前仍依赖大量人力投入 行人再识别(Person Re-Identification,简称 ReID),从字面意思理解就是对行人进行重新识别,是对不同的、没有视野重叠覆盖的(non-overlapping)摄像机拍摄的行人图像建立对应关系的处理过程。当摄像头拍摄范围之间不存在重叠时,由于没有了连续信息,检索难度也随之增大非常多。因此,行人再识别强调的是在跨摄像机的视频中对特定行人进行检索。 行人再识别:将图像中某个行人的特征与其他图像中行人特征进行对比,判断是否属于同一个人,相比行人检测难度更大。 如果说行人检测是要机器判定图像中是否存在行人,那么行人再识别就是要机器识别出不同摄像机拍摄的特定人员的所有图像。具体说,就是给定某人的一张图片(query image),从多张图片(gallery images)中找到属于他/她的那一张或多张,是通过行人整体特征实现的人员比对技术。 行人再识别(ReID)在公共安防的刑侦工作中以及图像检索等场景中有很高的应用价值。除此之外,ReID还可以帮助手机用户实现相册聚类、帮助零售或商超经营者获取有效的顾客轨迹、挖掘商业价值。然而,受限于行业水平,目前行人再识别的精准度并不高,很多工作仍依赖于大量人力的投入。 打破行人再识别行业纪录,首次超越人类专家 由于图像拍摄的时间、地点随机,且光线、角度、姿态不同,再加上行人容易受到检测精度、遮挡等因素的影响,ReID 的研究工作非常具有挑战性。 近年来受益于深度学习的发展,ReID 技术水平也得到了很大提升,在两个最为常用的ReID测试集Market1501和CUHK03上,首位命中率分别达到了89.9%和91.8%。不过,这个结果与人相比还是有一定的差距。实验表明,一个熟练的标注员在Market1501和CUHK03上的首位命中率分别可以达到93.5%和95.7%。 为了测试人类的ReID能力,研究者组织了10名专业的标注人员来进行测验。结果表明,一个熟练的标注员在Market1501和CUHK03上的首位命中率分别可以达到93.5%和95.7%。这个是现有的ReID方法无法企及的。 但不久前,旷视科技Face++在此项研究中取得了令人兴奋的进展:在旷视研究院团队发表的文章AlignedReID[1]中,作者提出了一种新方法,通过动态对准(Dynamic Alignment)和协同学习(Mutual Learning),然后再重新排序(Re-Ranking),使得机器在Market1501和CUHK03上的首位命中率达到了94.0%和96.1%,这也是首次机器在行人再识别问题上超越人类专家表现,创下了业界纪录。 继人脸识别之后,在更复杂的行人再识别领域中机器也超越了人类!这为目前机器代替人类处理大量以人为中心的图像或视频理解问题带来了更强大的技术。 旷视科技首席科学家、研究院院长孙剑表示:“最近几年,随着深度学习方法的复兴,从2014年的人脸识别到2015年的ImageNet图像分类,我们已经看到机器在越来越多的图像感知问题中超越了人类。记得不久前和我的导师、前微软领导沈向洋博士(微软全球执行副总裁)聊天时吹了个牛——感知问题5-10年基本都能解掉。今天,我非常高兴看到又一个非常难且有巨大应用价值的图像感知问题,被旷视科技团队的算法超越了人类性能。” 让多个网络自动学习人体结构对齐,并彼此相互学习 那么作者具体是如何做到的? 和其他基于深度学习的ReID方法类似,作者同样是用深度卷积神经网络去提取特征,用Hard Sample Mining后的Triplet Loss做损失函数,把特征的欧式距离作为两张图片的相似度。 不同之处在于,作者在学习图像相似度的时候考虑了人体结构的对齐。虽然此前有人考虑过这一点,比如简单的,把人的头、身、腿分成三部分;还有精细一点的,先通过人体骨架估计,然后再通过骨架信息来对齐。但后一种方法,引入了另一个困难的问题或要求额外的标注工作。AlignedReID[1]作者的思路是引入端到端的方法,让网络自动去学习人体对齐,从而提高性能。 在AlignedReID中,深度卷积神经网络不仅提取全局特征,同时也对各局部提取局部信息。对于两张图片中任意一对局部信息,计算它们之间的距离,构成一个距离矩阵。再通过动态规划,计算一条从矩阵左上角到右下角的最短路径。这条最短路径中的一条边就对应了一对局部特征的匹配,它给出了一种人体对齐的方式,在保证身体个部分相对顺序的情况下,这种对齐方式的总距离是最短的。在训练的时候,最短路径的长度被加入到损失函数,辅助学习行人的整体特征。 如图所示,乍一看,这条最短路径上有一些边是冗余的,例如图中的第一条边。为什么不只寻找那些匹配的边呢?作者给出的解释是这样的:局部信息不仅要自我匹配,也要考虑到整个人体对齐的进程。为了使匹配能够从头到脚按顺序进行,那么有一些冗余的匹配是必须的。另外,通过设计局部距离函数,这些冗余匹配在整个最短路径的长度中贡献很小。 除了在训练过程中让人体结构自动对齐外,作者还提到了同时训练两个网络并使它们互相学习,可以有效提高模型的精度。这个训练方法在分类问题中已经比较常见,作者做了一些改进让它能够应用于度量学习(Metric Learning)。 在上图所示的训练过程中:同时训练的两个网络都包含一个分支做分类,一个分支做度量学习。两个做分类的分支通过KL divergence互相学习;两个做度量学习的分支通过作者提出的metric mutual loss互相学习。而如前所述,度量学习的分支又包括两个子分支,一个是全局特征的分支,一个是局部特征的分支。比较有趣的是,一旦训练完成,分类分支和局部特征分支都被丢弃,只保留了全局特征分支做ReID。也就是说,无论是训练行人分类,还是通过人体对齐学习局部特征,都是为了更好的得到图像的全局特征。 最后,作者还采用了文献[2]中提出的k-reciprocal encoding来做重新排序。 上图的第一行是要查找的行人,大家猜一猜第二行和第三行哪个是人给出的结果,哪个是机器给出的结果吧。(答案文末揭晓) 此文所展示的方法让ReID技术在实验结果的表现中上了全新的台阶。不过文章的最后也指出,虽然机器在两个常用数据集上超过了人类的水平,但还不能说行人再识别(ReID)任务已经被很好地解决了。在实际的应用中,人类,尤其是经过专业训练的人,可以通过经验、直觉,并利用环境、上下文等综合信息,在拥挤,模糊,昏暗等情况下进行更深入的分析,所以在开放和极端条件下的环境中,人和机器相比仍具有很大的优势。在未来的实践中,行人再识别(ReID)的解决和应用还需要更多努力。 AlignedReID文章作者之一张弛表示:“我们从2016年开始研究ReID,当时Top1的精度达到60%就可以说是state of the art了。但是业务要求至少达到90%以上,甚至更高。现在我们已经在两个常用数据集上做到超过人类水平,到这也只是迈出了实用化的第一步,在实战场景中还有更多的挑战要应对。希望ReID技术的进一步成熟,能让我们的社会更安全,更便捷。” (最后公布刚刚的答案,第三行为机器的识别结果。) 附:旷视行人再识别技术应用演示:针对拥有特定特征的行人进行跨摄像头检索,未来可在高效查找走势人口、追踪定位目标嫌疑人等场景中发挥价值。 参考文献 [1] X. Zhang, H. Luo, X. Fan, W. Xiang, Y. Sun, Q. Xiao, W. Jiang, C. Zhang, and J. Sun. AlignedReID: Surpassing Human-Level Performance in Person Re-Identification. arXiv :1711.08184, 2017 [2] Z. Zhong, L. Zheng, D. Cao, and S. Li. Re-ranking person re-identification with k-reciprocal encoding. arXiv:1701.08398, 2017 来新智元小程序与 作者 面对面 体验 AI 社交资讯新生态! http://5b0988e595225.cdn.sohucs.com/images/20171128/c0255d75d1ff4defa108f3c2be89619a.gif Power Human with AI. www.megvii.com 原文章作者:旷视MEGVII,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-27
    最后回复 剑爰 2021-12-27 16:20
    3127 0
  • CMOS图像传感器的过去,现在和未来
    来源:本文由半导体行业观察翻译自semienginerring , 谢谢。 本文主要介绍最先进的CMOS图像传感器技术以及未来的发展。 在过去的十年里,CMOS图像传感器(CIS)技术取得了令人瞩目的进展,图像传感器的性能也得到了极大的改善。自从在手机中引入相机以来,CIS技术取得了巨大的商业成功。 包括科学家和市场营销专家在内的许多人,早在15年前就预言,CMOS图像传感器将完全取代CCD成像设备,就像20世纪80年代中期CCD设备取代了视频采集管一样。尽管CMOS在成像领域占有牢固的地位,但它并没有完全取代CCD设备。 另一方面,对CMOS技术的驱动极大地提升了整个成像市场。CMOS图像传感器不仅创建了新的产品应用程序,而且还提高了CCD成像设备的性能。本文介绍了CMOS图像传感器技术中最先进的技术,并对未来的发展前景进行了展望。 图像传感器的定义和用途 图像传感器是一种将光学图像转换成电子信号的电子设备。转换的方法因图像传感器的类型而异 “模拟”CCD执行光子到电子的转换。 “数字”CMOS图像传感器(CIS)执行光子到电压的转换 图像传感器用于数码相机和成像设备,将相机或成像设备接收到的光线转换为数字图像。 CIS vs. CCD 今天,有两种不同的技术用于数字图像采集(图1): 电荷耦合器件(CCD)是线性传感器,其输出与接收到的光子数量直接相关。 互补金属氧化物半导体(CMOS,或CMOS图像传感器CIS)是一种较新的并行读出技术。 这两种类型的成像设备都将光转化为电子(或电荷),随后即可处理成电子信号。CCD的设计目的是将电荷逐个像素地移动,直到它们到达专用读出区域放大器。CMOS图像传感器直接在像素上进行放大。更高级的CIS技术提供了一个并行读出架构,其中每个像素都可以单独寻址,或者作为一个组并行地读出(参见图1)。 http://img.mp.itc.cn/upload/20170619/b62f01fabe5b4995933af98fcf13cda3_th.jpg CMOS传感器的制造成本远低于CCD传感器。由于新型图像传感器的价格下降,数码相机已经变得非常便宜和普及。 在表1中,我们展示了CCD和CMOS架构的主要区别。 每个都有独特的优点和缺点,在不同的应用中各显其能(用绿色表示)。 http://img.mp.itc.cn/upload/20170619/e6fcade50a51421d97147d31f17ddbb5_th.jpg 表1:CCD与CMOS架构比较(来源:e2V) CIS中的关键组件 CMOS图像传感器有四个主要组件(见图2): 1光电二极管(PD) 2 像素设计 3 彩色滤光片(CF) 4 微透镜 光电二极管(PD)用于捕捉光,一般用于实现这一功能的是PIN二极管或PN结器件。最广泛实现的像素设计被称为“有源像素传感器”(APS)。通常使用3—6个晶体管,它们可以从大型电容阵列中获得或缓冲像素。彩色滤光片用于分离反射光的红、绿、蓝(RGB)成分。最后,微透镜从CIS的非活性部分收集光,并将其聚焦到光电二极管。微透镜通常具有球形表面和网状透镜。 http://img.mp.itc.cn/upload/20170619/745b351b5ec04cd098c11d9f3bedff4e_th.jpg 图2:CIS中的关键组件(来源:IBM,FSI) CIS性能参数 有许多参数可用于评估图像传感器的性能。我们使用三个主要指标对这些参数进行分类: 1像素布局:像素数,像素间距,像素填充因子 2像素物理:量子效率,阱容量,动态范围,转换增益,暗电流 3像素读数:信噪比,帧速率,线性度,功耗,位深度,调制传递函数,快门效率 (4)背面照度(BSI)技术与前面照度(FSI)技术 高级CMOS图像传感器制造商正在寻求新的架构,以便在保持或增强电—光性能的同时减小像素尺寸。较小的像素通常会带来更高的分辨率、更小的器件,以及更低的功耗和成本。理想情况下,缩小像素尺寸的任何新CIS架构都不应该降低性能或图像质量。一种较新的CIS架构背面照度(BSI)技术,是常用的前面照度(FSI)技术的有前途的替代方案(见图3)。 http://img.mp.itc.cn/upload/20170619/5a5a3e6adcd34c7ba00fc94e4c503e28.jpg 图3:::FSI vs. BSI BSI技术涉及到将图像传感器倒置,并将彩色滤光片和微透镜应用于像素的背面,以便传感器可以通过背面收集光线。 BSI具有深光电二极管和短光路,从而具有更高的量子效率(1)(QE)和较低的串扰(2)(见图4)。 http://img.mp.sohu.com/upload/20170619/d42a668776c144b0beb85b1c2b0cb4f5.png 图4:串扰 (1)QE =转换成为电子的光子的百分比 (2)电子串扰=相邻像素之间的电荷(电子或空穴,取决于像素类型)的扩散。它由于底层的电子机制(扩散和漂移)而在硅材料中发生 BSI流程 使用BSI架构制作CMOS图像传感器需要许多工艺步骤。两种不同的BSI工艺流程Si-Bulk(图5)和SOI(图6)如下所示: http://img.mp.sohu.com/upload/20170619/1d79d810950b4518a7a13574b7b12c94.png 图5:BSI Si-Bulk简化流程 http://img.mp.sohu.com/upload/20170619/40954acbb08d45949bb2bc1056387df7_th.png 图6:BSI SOI工艺流程(来源:Yole) CIS的全局快门(GS)与滚动快门(RS) “滚动快门”(RS)是一个技术术语,指的是图像传感器扫描图像的方式。如果传感器采用RS,则表示从传感器的一侧(通常是顶部)到另一侧依次逐行扫描图像。通常,CMOS图像传感器在RS模式下工作,其中曝光和快门操作逐行(或逐列)执行。 “全局快门”(GS)也是一个技术术语,指的是可以同时扫描图像的整个区域的传感器。在GS传感器中,使用所有像素同时捕获图像。GS架构包括一个存储器结构和附加的MOS晶体管,以提供额外的功能。今天,大多数CIS成像器采用GS模式来避免失真和伪像,如寄生光敏感度(见图7)。使用GS功能的CMOS图像传感器用于各种领域,包括广播、汽车、无人机和监控应用。 http://img.mp.itc.cn/upload/20170619/8d1cb5a0ebeb4acbb3f7f5f5fa57d8da.jpg 图7:滚动(左)与全局(右)快门模式 3D堆叠CIS 手机的增长是过去5年来CIS单位出货量增长的主要动力。随着CIS市场收入的增长,研发支出和专利申请也在增加。这一努力带来了先进的移动摄像系统,其中包含了一些新技术,例如: 1用于快速自动对焦(AF)的相位检测像素阵列(PDPA) 2 1μm生成像素,具有优越的低光灵敏度 3先进的芯片堆叠,具有与图像信号处理器(ISP)晶圆连接的BSI CIS晶圆 4 视频录制高达4K 3D堆叠图像传感器由在逻辑裸片上面对面堆叠的BSI图像传感器裸片组成。投资堆叠式芯片CIS开发的动机各异,具体取决于制造商,但可概括为: 1添加功能 2减少形式 3 支持灵活的生产选择 4有助于3D堆叠中每个裸片的优化 索尼在2012年推出了全球首款用于消费电子产品的堆叠芯片CIS相机系统,2013年初,平板电脑中使用了8 MP ISX014堆叠芯片。第一代芯片采用了上一代TSV,将索尼制造的90nm CIS裸片的pad与65nm ISP的pad连接起来(来源:Chipworks)。 索尼的13 MP IMX214第二代堆叠CIS芯片的制造类似于其90/65 nm(CIS / ISP)技术,并于2014年用于iPhone6 / 6s中。 最近(2017年2月),索尼公布了3层CIS器件,包括顶层BSI传感器或CIS光电二极管,中层DRAM单元阵列和底层逻辑作为ISP(图8)。它是具有1um x 1um像素尺寸的23MP图像传感器,使用新的混合键合结构(常规结构类似于TSV)。 索尼还在2017年5月发布了其首款三层960 fps相机,并配备了三明治式堆叠的DRAM。 http://img.mp.itc.cn/upload/20170619/7e5b0b1e7ebb41a598fbca1a1fd3e5cd_th.jpg 图8:索尼3层堆叠CIS器件(来源:ISSCC 2017&TechInsights) 3D堆叠CIS的历史 在表2中,我们总结并展示了3D堆叠CIS的历史(来源:www.3DIC.org)。我们可以清楚地看到,技术从氧化物粘合+通过最后的TSV堆叠技术转移到混合键合技术,再到最近的顺序3D集成技术。 台湾国立纳米器件实验室和清华大学的研究人员最近展示了一个单片3D图像传感器。他们按顺序制造了单层(小于1nm)的TMD(过渡金属二硫属性元素)光晶体管阵列,使用CVD生长的MoS2,通过高强度的内部连接转移到3D逻辑/存储器混合IC中。 http://img.mp.itc.cn/upload/20170619/1562b11c634f4276be1d3ae7467fbce9_th.jpg 表2:堆叠CIS的历史(来自www.3DIC.org) 现在和未来的CIS技术/市场/玩家 未来CIS技术采用的路线图受到三个限制或驱动因素的推动: 1尺寸(3维,相机模组的X,Y和Z) 2图像质量(分辨率,低光性能,对焦(AF)和稳定性(OIS)) 3功能(慢动作影像,图像分析,运动控制) BSI,3D堆叠BSI,3D混合以及3D顺序集成都是影响未来CIS技术应用的关键技术。 多年来,CIS市场的竞争格局已经发生了很大的变化。索尼是市场、生产、技术的领导者。Omnivision和三星一直保持强劲,Galaxycore和Pixelplus这样的新玩家也在崛起。同时,集成器件制造(IDM)模型一直是佳能和尼康的强大动力来源,它们都经受住了数码相机的缓慢发展。至于松下,它已经与Tower Jazz成立了一家合资公司,以协助其在高端成像应用领域的探索。 今天,CIS行业是由手机和汽车应用推动的。智能手机摄像头的创新将会继续,尽管这个大批量应用的竞争非常激烈。为了保持竞争力,CIS制造商正被迫将越来越多的功能整合到移动摄像机中(见图9)。 http://img.mp.itc.cn/upload/20170619/1ce1ca3862f947f5871b9a06c35aab07_th.jpg 图9:移动摄像机功能的转型(来源:Yole) 智能手机的应用正处于CIS市场份额的领先地位,但许多其他应用将成为CIS未来增长的一部分。许多IDM和无晶圆厂公司正在为新兴的更高利润率的成像应用开发芯片,如汽车、安全、医疗和其他领域。这些应用中出现了巨大的机会,推动了新兴供应商和现有供应商的市场和技术工作。这些新兴的机遇正在将移动成像技术推向其他增长领域,我们可能会看到从视觉成像到视觉感知以及其他交互式应用的转变。 原文链接:https://semiengineering.com/cmos-image-sensors-cis-past-present-future/ 今天是《半导体行业观察》为您分享的第1311期内容,欢迎关注。 推荐阅读(点击文章标题,直接阅读) ★ 国内供应链要把握OLED机遇! ★ 为什么中国做不了高端示波器? ★ 中国半导体教父张汝京的“三落三起” 关注微信公众号 半导体行业观察 ,后台回复关键词获取更多内容 回复 科普 ,看《第三代半导体科普,国产任重道远》 回复 争霸 ,看《晶圆代工争霸战四部曲(了解各晶圆厂的前世今生,非常详细!建议收藏!) 》 回复 指南 ,看《半导体专业留学海外指南(1): 专业方向选择》 回复 财报 ,看《18家半导体企业财报汇总,几家欢喜几家愁》 回复 国产手机 ,看《谨以此文献给国产手机背后的劳动者》 回复 指纹 ,看《面板厂将指纹识别芯片革命到底 》 回复 OLED ,看《一文看懂我国OLED全产业链,除了京东方还有啥值得骄傲的?》 回复 缺货 ,看《半导体行业缺货危机重现 这10大领域面临洗牌?》 想成为“半导体行业观察”的一员?回复“ 投稿 ”,了解我们的福利与待遇吧~ 【关于转载】:转载仅限全文转载并完整保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“半导体行业观察icbank”微信公众号。谢谢合作! 【关于征稿】:欢迎半导体精英投稿(包括翻译、整理),一经录用将署名刊登,红包重谢!签约成为专栏专家更有千元稿费!来稿邮件请在标题标明“投稿”,并在稿件中注明姓名、电话、单位和职务。欢迎添加我的个人微信号 MooreRen001或发邮件到 jyzhang@moore.ren 原文章作者:摩尔精英,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-23
    最后回复 屹辖 2021-12-23 07:32
    1102 0
  • 干货|如何做准确率达98%的交通标志识别系统?(附源码)
    摘要: 我们可以创建一个能够对交通标志进行分类的模型,并且让模型自己学习识别这些交通标志中最关键的特征。在这篇文章中,我将演示如何创建一个深度学习架构,这个架构在交通标志测试集上的识别准确率达到了98%。 http://5b0988e595225.cdn.sohucs.com/images/20170906/5983266274cb4da1a2a071dc734273d9.jpeg 交通标志是道路基础设施的重要组成部分,它们为道路使用者提供了一些关键信息,并要求驾驶员及时调整驾驶行为,以确保遵守道路安全规定。如果没有交通标志,可能会发生更多的事故,因为司机无法获知最高安全速度是多少,不了解道路状况,比如急转弯、学校路口等等。现在,每年大约有130万人死在道路上。如果没有这些道路标志,这个数字肯定会更高。当然,自动驾驶车辆也必须遵守交通法规,因此需要_识别_和_理解_交通标志。 从传统上来说,可以使用标准的计算机视觉的方法来对交通标志进行检测和分类,但同时也需要耗费相当多的时间来手工处理图像中的重要特征。现在,我们引入深度学习技术来解决这个问题。我们可以创建一个能够对交通标志进行分类的模型,并且让模型自己学习识别这些交通标志中最关键的特征。在这篇文章中,我将演示如何创建一个深度学习架构,这个架构在交通标志测试集上的识别准确率达到了98%。 一、项目设置 数据集可分为训练集、测试集和验证集,具有以下特点: 图像为32(宽)×32(高)×3(RGB彩色通道) 训练集由34799张图片组成 验证集由4410个图像组成 测试集由12630个图像组成 共有43个种类(例如限速20公里/小时、禁止进入、颠簸路等等) 此外,我们将使用Python 3.5与Tensorflow来编写代码。 二、图像及其分布 你可以在下图中看到数据集中的一些示例图像,图像的标签显示在相应行的上方。其中一些非常暗,稍后我们会调整它们的对比度。 http://5b0988e595225.cdn.sohucs.com/images/20170906/b542eff534d94b0eb44dd24d57ebe9e6.jpeg 训练集中各个种类图像的数量明显不平衡,如下图所示。某些种类的图片少于200张,而其他的则有2000多张。这意味着我们的模型可能会偏向于代表性过高的种类,特别是当它的预测无法确定时。我们稍后会看到如何使用数据增强来缓解这个问题。 http://5b0988e595225.cdn.sohucs.com/images/20170906/9fac448af1a046c38ad92422a9a9e344.jpeg 三、预处理步骤 我们首先要对图像应用两个预处理步骤: (一)灰度化 把三通道的图像转换为单通道灰度图像,如下图所示。 http://5b0988e595225.cdn.sohucs.com/images/20170906/042cd3a49fb74c5baa774d76f27f090b.jpeg (二)归一化 我们通过用数据集平均值减去每个图像并除以其标准偏差来确定图像数据集分布的中心。这有助于提高模型在处理图像时的一致性。生成的图像如下所示: http://5b0988e595225.cdn.sohucs.com/images/20170906/5cd324fc14294b39878009c0559acdb1.jpeg 四、模型的架构 交通标志分类器架构的灵感来自于Yann Le Cun的这篇论文。我们在他的基础上做了一些调整,并创建了一个模块化的代码库,它允许我们尝试不同的过滤器大小、深度和卷积层的数量,以及完全连接层的维度。为了向Le Cun致敬,我们称这样的网络为**_EdLeNet_** :)。 我们将主要尝试5x5和3x3大小的过滤器(又名内核),并且卷积层的深度从32开始。 EdLeNet的3x3架构如下所示: http://5b0988e595225.cdn.sohucs.com/images/20170906/0d48e486e2f34d67bb2d4ed24d3791b4.jpeg 该网络由3个卷积层组成,内核大小为3x3,下一层的深度加倍,使用ReLU作为激活函数,每一层的后面是最大2×2的池操作。最后3层完全连接,最后一层能产生43个结果(可能的标签总数),使用SoftMax作为激活函数。这个网络使用附带Adam优化器的迷你批次随机梯度下降算法进行训练。我们编写了高度模块化的基础代码,这使得我们能够_动态_创建模型,示例代码片段如下: mc_3x3 = ModelConfig(EdLeNet, "EdLeNet_Norm_Grayscale_3x3_Dropout_0.50", [ 32, 32, 1], [ 3, 32, 3], [ 120, 84], n_classes, [ 0.75, 0.5])mc_5x5 = ModelConfig(EdLeNet, "EdLeNet_Norm_Grayscale_5x5_Dropout_0.50", [ 32, 32, 1], [ 5, 32, 2], [ 120, 84], n_classes, [ 0.75, 0.5])me_g_norm_drpt_0_50_3x3 = ModelExecutor(mc_3x3)me_g_norm_drpt_0_50_5x5 = ModelExecutor(mc_5x5) ModelConfig包含了模型的相关信息,比如: 模型的函数(例如:EdLeNet) 模型的名称 输入的格式(例如:灰度等级为[32,32,1]), 卷积层的配置[过滤器大小、起始深度、层数], 完全连接层的大小(例如:[120,84]) 种类的数量 dropout(丢弃)百分比值 ModelExecutor负责_训练_、_评估_、_预测_,以及生成_激活_映射的可视化效果。 为了更好地隔离模型,并确保它们不是全部都在相同的Tensorflow图下,我们使用下面这个比较有用的结构: self.graph = tf.Graph() withself.graph.as_default() asg:withg.name_scope( self.model_config.name ) asscope:... withtf.Session(graph = self.graph) assess: 这样,我们就能为_每个_模型创建单独的图,并确保没有混入变量、占位符。这为我解决了很多麻烦。 我们实际上是以卷积深度为16开始的,但在深度为32的时候获得了更好的结果并最终确定了这个值。我们还比较了彩色与灰度图像、标准和归一化的图像,最后发现灰度图往往优于彩色图。不幸的是,我们在3x3或5x5的模型上最高勉强达到了93%的测试准确率,而后来一直没有达到这个准确率。你可以在下图中看到针对不同模型配置的一些指标图。 http://5b0988e595225.cdn.sohucs.com/images/20170906/138d05f736394eb8bbd2dc6dd1f122b6.jpeg 在颜色归一化图像上的模型性能 http://5b0988e595225.cdn.sohucs.com/images/20170906/505e3cc7977a4bdf8950fa4287968e6a.jpeg 在灰度归一化图像上的模型性能 五、Dropout(丢弃)算法 为了提高模型的可靠性,我们需要使用dropout算法,这个算法是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。这样可以防止模型过度拟合。Dropout算法最早是由深度学习领域的先驱Geoffrey Hinton提出来的。要更好地理解背后地动机,务必阅读一下这篇论文。 在论文中,作者根据层类型的不同应用不同概率值进行丢弃。因此,我决定采用类似的方法,定义两个级别的dropout,一个用于卷积层,另一个用于完全连接层: p-conv: probabilityof keepweight inconvolutional layerp-fc: probabilityof keeping weight infully connected layer 此外,随着进入到更深层次的网络,作者逐渐开始采用更积极的dropout值。所以我也决定这样: p-conv >= p-fc 这样做的原因是,我们把网络看作是一个漏斗,当我们深入到层中时,希望逐渐收紧它:我们不想在开始的时候丢弃太多的信息,因为其中的一些相当有价值。此外,在卷积层中应用MaxPooling的时候,我们已经失去了一些信息。 我们尝试过不同的参数,但最终结果是_p-conv = 0.75_和_p-fc = 0.5_,这使得我们可以使用3x3的模型在归一化灰度图上实现97.55%的测试集准确率。有趣的是,我们在验证集上的准确率达到了98.3%以上: Training EdLeNet_Norm_Grayscale_3x3_Dropout_0. 50[ epochs=100,batch_size=512]...[ 1] total=5.222s| train: time=3.139s,loss=3.4993,acc=0.1047| val: time=2.083s,loss=3.5613,acc=0.1007[ 10] total=5.190s| train: time=3.122s,loss=0.2589,acc=0.9360| val: time=2.067s,loss=0.3260,acc=0.8973...[ 90] total=5.193s| train: time=3.120s,loss=0.0006,acc=0.9999| val: time=2.074s,loss=0.0747,acc=0.9841[ 100] total=5.191s| train: time=3.123s,loss=0.0004,acc=1.0000| val: time=2.068s,loss=0.0849,acc=0.9832Model ./models/EdLeNet_Norm_Grayscale_3x3_Dropout_0. 50.chkpt saved time=0.686s,loss=0.1119,acc=0.9755 http://5b0988e595225.cdn.sohucs.com/images/20170906/e3d8b91fdd344bbab773a61067656dd9.jpeg 引入dropout算法后,在灰度归一化图像上的模型性能 上面的图表显示,这个模型更为_平滑_。我们已经在测试集上实现了准确率超过93%这个目标分数。下面,我们将探索一些用于处理每一个点的技术。 六、直方图均衡化 直方图均衡化是一种计算机视觉技术,用于增强图像的对比度。由于一些图像受到了低对比度(模糊、黑暗)的影响,因此我们将通过应用OpenCV的对比度限制自适应直方图均衡来提高可视性。 我们再次尝试了各种配置,并找到了最好的结果,**测试精度达到了97.75%**,在3x3的模型上使用以下dropout值:_p-conv = 0.6_,_p-fc = 0.5_。 Training EdLeNet_Grayscale_CLAHE_Norm_Take- 2_3x3_Dropout_0. 50[ epochs=500,batch_size=512]...[ 1] total=5.194s| train: time=3.137s,loss=3.6254,acc=0.0662| val: time=2.058s,loss=3.6405,acc=0.0655[ 10] total=5.155s| train: time=3.115s,loss=0.8645,acc=0.7121| val: time=2.040s,loss=0.9159,acc=0.6819...[ 480] total=5.149s| train: time=3.106s,loss=0.0009,acc=0.9998| val: time=2.042s,loss=0.0355,acc=0.9884[ 490] total=5.148s| train: time=3.106s,loss=0.0007,acc=0.9998| val: time=2.042s,loss=0.0390,acc=0.9884[ 500] total=5.148s| train: time=3.104s,loss=0.0006,acc=0.9999| val: time=2.044s,loss=0.0420,acc=0.9862Model ./models/EdLeNet_Grayscale_CLAHE_Norm_Take- 2_3x3_Dropout_0. 50.chkpt saved time=0.675s,loss=0.0890,acc=0.9775 尽管做了直方图均衡化,但有些图像依旧非常模糊,并且有些图像似乎是失真的。在我们的测试集中没有足够的图像示例来改进模型的预测。另外,虽然97.75%的测试准确率已经相当不错,但我们还有另外一个杀手锏:数据增强。 七、数据增强 我们在早些时候曾经发现,43个种类的数据明显不平衡。然而,它似乎并不是一个棘手的问题,因为即使这样,我们也能够达到非常高的准确度。我们也注意到测试集中有一些图像是失真的。因此,我们将使用数据增强技术来尝试: 扩展数据集,并在不同的照明条件和方向上提供其他图片 提高模型的通用性 提高测试和验证的准确性,特别是对失真的图像 我们使用了一个名为imgaug的库来创建扩展数据。我们主要应用仿射变换来增强图像。代码如下: defaugment_imgs(imgs, p):""" Performs a set of augmentations with with a probability p """augs = iaa.SomeOf(( 2, 4), [ iaa.Crop(px=( 0, 4)), # crop images from each side by 0 to 4px (randomly chosen)iaa.Affine(scale={ "x": ( 0.8, 1.2), "y": ( 0.8, 1.2)}), iaa.Affine(translate_percent={ "x": ( -0.2, 0.2), "y": ( -0.2, 0.2)}), iaa.Affine(rotate=( -45, 45)), # rotate by -45 to +45 degrees)iaa.Affine(shear=( -10, 10)) # shear by -10 to +10 degrees]) seq = iaa.Sequential() returnseq.augment_images(imgs) 虽然种类数量的不平衡可能会在模型中引入偏差,但我们决定在现阶段不解决这个问题,因为这会导致数据集数量的增加,延长训练时间。相反,我们决定为每个种类增加10%的图像。我们的新数据集如下。 http://5b0988e595225.cdn.sohucs.com/images/20170906/de5838242bbb4a1095268ec2df050799.jpeg 图像的分布当然不会发生显著的变化,但是我们确实对图像应用了灰度化、直方图均衡化,以及归一化等预处理步骤。我们训练2000次,附加dropout算法(_p-conv = 0.6_,_p-fc = 0.5_),并在测试集上达到**97.86%的准确率:** Building neural network Training EdLeNet_Augs_Grayscale_CLAHE_Norm_Take4_Bis_3x3_Dropout_0. 50[ epochs=2000,batch_size=512]...[ 1] total=5.824s| train: time=3.594s,loss=3.6283,acc=0.0797| val: time=2.231s,loss=3.6463,acc=0.0687...[ 1970] total=5.627s| train: time=3.408s,loss=0.0525,acc=0.9870| val: time=2.219s,loss=0.0315,acc=0.9914[ 1980] total=5.627s| train: time=3.409s,loss=0.0530,acc=0.9862| val: time=2.218s,loss=0.0309,acc=0.9902[ 1990] total=5.628s| train: time=3.412s,loss=0.0521,acc=0.9869| val: time=2.216s,loss=0.0302,acc=0.9900[ 2000] total=5.632s| train: time=3.415s,loss=0.0521,acc=0.9869| val: time=2.217s,loss=0.0311,acc=0.9902Model ./models/EdLeNet_Augs_Grayscale_CLAHE_Norm_Take4_Bis_3x3_Dropout_0. 50.chkpt saved time=0.678s,loss=0.0842,acc=0.9786这是迄今为止最好的结果!!! 但是,看看训练集上的损失指标,0.0521,我们很有可能还有一些改进的空间。未来,我们将执行更多的训练次数,我们会报告最新成果的。 八、结论 本文探讨了如何将深度学习应用于分类交通标志,其中包含了各种预处理和归一化技术,以及尝试了不同的模型架构。我们的模型在测试集上达到了接近98%的准确率,在验证集上达到了99%的准确率。你可以在这里访问代码库。 开源:https://github.com/kenshiro-o/CarND-Traffic-Sign-Classifier-Project?spm=5176.100239.blogcont195729.35.4Tb6Hq 原文:https://medium.com/towards-data-science/recognizing-traffic-signs-with-over-98-accuracy-using-deep-learning-86737aedc2ab?spm=5176.100239.blogcont195729.36.q078UY 四、2名导师管理(深圳):沟通能力强,能善于负责人工智能技术专家的拓展、关系维护、培训沟通、课程时间协调等工作(英语好懂技术)。待遇:8-12k+提成 原文章作者:全球人工智能,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-23
    2726 0
  • 不断发展的X光安检图像识别基于深度学习的智能识别设计与 ...
    为了确保公共交通的安全,安全检查已成为确保公共生命财产安全的必要手段。但是,由于中国人口流动性高和客流量大,对安全检查技术的需求和要求也在增加。由于依靠人工检查和图像识别的传统工作方法无法满足人们出行时的人流需求,因此越来越多的现代智能技术被应用在安全检查领域。 目前,在许多机场安全检查场景中已经实现了人工智能和硬件的结合。通过对各种安全检查图像的数据处理,使用深度学习算法来实现对违禁品的自动识别和预警。这样,大大降低了安全人员的劳动强度,提高了安全检查的质量,避免了因遗漏,误判危险品而造成的不良后果。 一套专门针对 X 光安检图像的目标检测算法、数据收集和标定方案,并开发相应的软硬件系统,可与 X光安检机松耦合对接,实现从 X 光安检图像的输入、检测、输出的完整系统。 一、算法流程设计 专门针对 X 光安检图像设计的算法为二阶段目标检测网络,通过训练卷积神经网络得到适用于 X 光安检图像数据的模型。该模型的输入是一定尺度范围的 X 光图像,输出为该图像中存在的违禁品类别、坐标和置信度,网络结构图如图 1 所示。 https://p3.itc.cn/q_70/images01/20210803/01a528002b5b45dfa8dbb22e3d9e7a24.jpeg 算法流程如下。 (1) 经过捕获卡处理后的图像在补边、减均值后保持原有尺寸送入特征提取网络。 (2) 特征提取网络采用全卷积网络结构,输出特征图。 (3) 特征图经过 RPN,输出可能有目标的区域 ROI。 (4)ROI 经过池化(Pooling)变换后产生小尺寸的特征图,再经过 Head 网络后完成分类和定位偏移量的计算。 (5)Head 网络的输出偏离量对 ROI 精修,得到最终预测结果,即针对 X 光安检图像的目标检测结果和置信度。 数据质量优劣决定了模型质量。为训练出专门针对 X 光图像的模型,本模型并未采用常规图像数据集训练,而是大量制造带有真实违禁品、并有各种箱包、填充物、干扰物组合的 X 光安检图像,并结合现场采集的真实行包数据作为训练样本,同时辅以颜色变换、尺度变换、水平翻转和镜面翻转等多种数据增强方法和域自适应的图像风格迁移方法,构建出数百万级别的训练样本,涵盖了国内常见的十几种主流品牌安检机的图像特征,使得模型具备较强的泛化识别能力。 二、硬件系统结构和功能 硬件系统设计需要承载 X 射线安检机视频信号接入、X射线安检机 EDID 信号反馈、视频信号放大并分配、视频信号数字化、视频图像预处理、深度神经网络推理和计算、渲染显示输出的完整业务流程,硬件系统设计如图 2 所示。 https://p2.itc.cn/q_70/images01/20210803/dba2eb35c4314b96b965c2dfe759434d.jpeg 各模块和功能如下: (1) 视频信号分配模块 (2) 视频信号采集模块 (3) 图像处理模块(CPU) (4) 神经网络计算模块(GPU-1) (5) 显示渲染模块(GPU-2) 三、成品实物展示 根据软硬件设计,成品样机实物如图所示。屏幕展示效果目标标签展示方式尽量和伪彩色图像有所区别,并对安检员的视线干扰最小。 https://p5.itc.cn/q_70/images01/20210803/ae9bd9ba02de49adabf29a34c587c303.jpeg 针对 X 光安检图像进行违禁品目标检测和识别的有效算法,并且实现了用于安检实战场景的软硬件系统。即可实现 X 光安检图像智能判图的完整流程,无需对现有的 X 光安检机进行任何定制改造。该系统目前已广泛在地铁、高铁、机场、物流等领域。未来可以通过增加待检测目标训练样本,进一步扩展识别目标类型,提升识别率,以满足轨交、物流、机场、海关等不同应用场景的不同需求,通过人机耦合判图,最终实现降本增效、提升安检服务质量,应用前景广阔。 https://p1.itc.cn/q_70/images01/20210803/1dd42964012244f8a42eeafff26eaffc.gif 原文章作者:IWILDETECTOR,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    1389 0
  • 计算机视觉与深度学习实战
    在当今的信息化社会,图像是人类赖以获取信息的最重要来源之一。随着计算机技术的迅猛发展,图像技术与计算机技术不断融合,产生了一系列图像处理软件如 MATLAB 等,这些软件的广泛应用为图像技术的发展提供了强大的支持。MATLAB已成为国际公认的最优秀的科技应用软件之一,具有编程简单、数据可视化功能强、可操作性强等特点,而且配有功能强大、专业函数丰富的图像处理工具箱,是进行图像处理必备的软件工具。现有的 MATLAB 图像处理著作多是讲解图像处理中的经典理论与算法,鲜有解决实际问题的案例。在本课程中,老师将自己在多年的实践中积累的案例与学生分享,其中关于图像去雾、图像去噪、图像识别等方面的相关内容都紧跟图像研究热点,对于刚开始接触相关领域的研究者来说,是很好的入门教程。 本课程的一大特点是对于每个案例都有详细的理论基础介绍,并配备了实例代码和注释,不仅可以让初学者很快学习到代码编写方面的知识,还可以让读者在动手实践的过程中深入理解所研究的相关问题。本课程将代码讲解融入实际的案例中,相比其他基础书籍更加生动形象,解决了读者在实践过程中遇到的具体、实际的技术难点,为学生提供了直接的技术支持。 本课程共12节课,分为三大部分,在实际中将覆盖如下案例。 一. 计算机视觉基础案例 第1课 图像增强基础案例 课程引入——白金还是蓝黑?生物视觉模拟解密应用 基于直方图优化的图像去雾技术 基于形态学的权重自适应图像去噪 第2课 图像分割基础案例 课程引入——自定义动画文本生成应用 基于多尺度形态学提取眼前节组织 基于K-means聚类算法的图像区域分割 基于 Hough 变化的答题卡识别 基于阈值分割的车牌定位识别 第3课 视频处理基础案例 课程引入——大话西游牌匾制作 视频处理基础工具 搭建基础的视频处理框架 基于模型的人脸识别基础以及网络图片爬虫 基于CNN的影视明星人脸检测与识别应用 二. 计算机视觉进阶案例 第4课 医学影像应用案例 课程引入——某鸡蛋生产线定位及统计 基于分水岭分割进行肺癌诊断 基于最小误差法的胸片分割 基于区域生长的肝脏影像分割系统 第5课 模式识别应用案例 课程引入——腾讯二维码解析 基于知识库的手写体数字识别 基于特征匹配的英文印刷字符识别 基于不变矩的数字验证码识别 第6课 图像融合应用案例 基于小波技术进行图像融合 基于块匹配的全景图像拼接 第7课 图像压缩应用案例 基于霍夫曼图像压缩重建 基于主成分分析的图像压缩和重建 基于小波的图像压缩技术 第8课 图像特征应用案例 课程引入——模拟色盲检测的应用 基于Hu不变矩的图像检索技术 基于Harris的角点特征检测 基于K聚类的彩色图像自动汇聚技术 基于Sift特征点的人民币区域检测 第9课 图像控制应用案例 课程引入——图像特效控制应用 基于语音识别的信号灯图像模拟控制技术 基于小波变换的数字水印技术 基于齿轮转动声音的故障诊断系统 基于压缩感知的目标跟踪应用 三. 计算机视觉系统案例 第10课 图像综合应用案例 课程引入——红色咖啡杯的跟踪 基于Camshift的人脸跟踪应用 基于Camshift的手部跟踪应用 基于帧间差法进行视频目标检测 路面裂缝检测识别系统设计 基于AlexNet的迁移学习应用 第11课 深度学习应用案例 基于AlexNet的烟叶成熟度鉴别应用 基于AlexNet的昆虫鉴别应用 基于AlexNet及SVM的多维学习应用 基于深度学习的字符识别应用 基于DNN的图像去噪应用 基于GoogLeNet的场景识别应用 基于AlexNet的隐层可视化研究 第12课 实践总结课 基于CNN的图像倾斜角度计算 基于RCNN的交通标志牌检测 基于VGG的语义分割应用 基于OCR的图片文字定位应用 本期课程预计2019年11月1日开课,预计课程持续时间为13周。 课程环境: windows + Matlab 本课程以案例为基础,结构布局紧凑,内容深入浅出,实验简捷高效,适合计算机、信号通信和自动化等相关专业的本科生、研究生、教师,以及广大从事数字图像处理的工程研发人员进行实践。 本课程对每个数字图像处理的知识点都提供了丰富生动的案例素材,并详细讲解了其 MATLAB 实验的核心程序,通过对这些示例程序的阅读理解和仿真运行,学员可以更加深刻地理解图像处理的内容,并且更加熟练地掌握 MATLAB 中各种函数在图像处理领域中的用法。 讲师介绍 : lyqmath,计算机视觉算法工程师,研究生毕业于大连理工大学数学科学学院计算几何与图形图像重点实验室。多年来一直从事计算机视觉应用开发,涉及到互联网海量图像/声纹/视频检索、基于OCR的图文大数据应用系统,医疗影像大数据应用系统、图像版权防盗检测系统、安防智能监控系统等实际项目的算法架构与研发工作,对十亿级规模的以图搜图、互联网图像数据采集与挖掘等方面进行过深入的研究与应用,对图像与视频大数据分析具有深刻的认识。曾参与多项国家级核心项目的研发,取得一系列具有实用价值的成果。通过对项目的技术积累,已出版《MATLAB图像与视频处理实用案例详解》、《Matlab数值计算案例分析》、《Matlab N个实用技巧》、《Matlab 计算机视觉与机器认知》等多部图书,新书《MATLAB计算机视觉与深度学习实战》已出版,并作为本课程的参考教材,覆盖计算机视觉及深度学习的多个案例。 原文章作者:炼数成金订阅号,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    2402 0
  • 数字化石油的开采利器:智能图像识别系统
    https://p9.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/90b91635067542ff85b693625893e7c8 作者:高级研究员 海游 我们先看一张来自2021年10月30日,首届“进化的力量·刘润年度演讲”关于数字化的一张图片。 https://p6.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/2e951e1bb641436cbdf3e401455524eb 说到数字化,对于快消品行业的从业人员而言并不陌生,很多企业开始搞“一把手工程”,投入重金研究企业数字化转型,那么到底什么是数字化?什么是数字化转型?为什么要数字化转型?概念一直很模糊,刘润类比石油的开采从抽象的事物中提炼出了数字化的所有答案。 数字化转型就是从物理世界中,开采出数据,粗炼出信息,精炼出知识,聚合为智慧的过程,这个过程始于数据的开采,终于聚合的智慧。 实际上,很多企业和专家基于数字化转型首先研究的是知识层面,却忽略了最基本的数据采集。数据的采集出了问题、信息就不可能准确,提炼出来的知识也就没有价值,最后得出的智慧就是一场华丽的闹剧。 今天我们再聊一聊数字化采集这个板块。 https://p6.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/d614286b989a4db1be0a18d26284f28f 对快消品而言数字化石油有哪些事物 我们再看一张图片,数字化采集有哪些核心信息? https://p6.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/f094061b8e314ced8c380a3b0cf7df6c 1. 店招包含信息: 网点的类型、网点的位置、网点的通路属性、网点的面积、网点内部经营产品结构等等。这个信息的精准性是为将来渠道费用投入、类似店招等生动化物料的选投等提供参考性建议的。 2. 品项&排面&占比包含的信息: 市场占有率、排面占比、排面最佳位置、竞品相关信息等等,这个信息的精准性是为了研究市场竞争格局,反省自身问题等提供参考性建议的。 3. 堆头&空间逻辑构建包含信息: 堆头位置的人流量、堆头的生动化布建情况,竞品布建情况等等。这个信息的精准性是为了检核基层人员市场作业的效率、投入产出比、竞争形态等。 除上述信息外,理论上店内所有能影响动销的关键因素都是关键的信息。比如割箱、挂条/挂网、价签、包柱围挡等。 总结:看到以上信息,相信大家都会有体会,数据本身并没有意义,真正有价值的是数据的内容。就像一张图片,我们看到本品有多少?竞品有多少?本质意义不大,计算出本品和竞品的排面占比,这个百分比有意义,这才是价值。从一堆图片之中“粗炼”出有价值的信息才是数字化转型中采集工作的核心。 https://p9.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/21b08edcdd9b465b895b679d4542c2e0 以上信息的背后藏着什么? 快消品和其它行业不同之处是劳动密集型。需要布局的渠道有几百种,需要覆盖的网点有几百万个,需要触达的消费者是十四亿。没有哪一个消费品行业有这样的规模,而这些都需要人员来完成。 1. 巨大的信息量 举几个例子,可口可乐服务的网点有三百多万个,农夫山泉服务的网点有两百多万个,而一个基层作业人员最多服务210个左右(每天35个,一周服务6天),也就是这些网点需要几十万个基层人员来完成,千人千面,每一个网点需要采集5张以上图片,后台一天的信息量就大到难以想象。就像今麦郎董事长范现国很早以前所说:百万网点进办公室,要像航天中心一样管理网点。 https://p26.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/1866d6073c3341878fbe3a6b46510862 2. 真实的背后是精准 我们有很多手段做大数据真实,但是要做大数据精准提取不是一件容易的事情,真实和精准之间还有一段距离,例如我们采集自己产品的货架占比,人工统计误差肯定很大。 我们可以确保基层人员货架采集图片的真实性(这个图片是真的),但是我们却无法精准地计算出占比(人员计算有误差,其次人工数数量也有误差)。 总结:数字的采集工作人为因素越低,越符合人性,越可以让基层作业者解放精力去沟通销量,越可以让数据“粗炼”更有价值。 https://p6.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/a44f9f726ded48a58380457de5cf54f3 数据精准采集的一把钥匙:图像识别 时代不一样,随着互联网技术的加持,实现百万网点的管理已经发生了巨大的变化,百度飞桨EasyDL零售版的智能AI图像识别系统就是助力其实现的一把利器,我们简单研究几个场景再现。 1. 货架场景:最常见的数据采集信息 https://p6.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/a4c1146157054e73a4577875590ace98 我们可以通过多维的图像识别形式确保数据的“粗炼”。 例如:商品基本信息识别,包括产品的名称、品牌、规格等;商品陈列层数识别,包括货架层数以及自己产品所在位置等;商品场景识别、包括货架、端架、冰柜、地堆、割箱等;商品排面占比统计识别,包括排面占比、未识别产品信息、空位数以及货架利用率等。 最后可以精准地得出本品、竞品的相关信息,这些数据采集通过百度飞桨EasyDL零售版的图像识别系统可以轻松搞定。 2. 冰柜场景:饮品旺季最重要的数据采集信息 冰柜是饮品的重要战场,到了旺季,可谓是得冰柜者得天下。最头痛的问题便是自投冰柜的达标以及买投位置的合格判定。 这里就涉及两个数据:一是纯净度,二是饱满度。这两个问题多会涉及到费用以及后期的争议扯皮情况。有了图像识别,有了百度飞桨EasyDL零售版的智能图像识别系统分析,一切可能出现的争议便不复存在。 3. 堆头场景: 费用花的值不值最重要的是数据采集信息 堆头是快消品重要的陈列,也是品牌显现的重要手段,其职能包括产品的售卖和品牌形象。一般情况下堆头是付费陈列,这个费用合不合理的衡量因素有三:生动化布建情况、堆头合计箱数、堆头占地面积,通过百度飞桨EasyDL零售版的智能图像识别系统可以轻松判断。 https://p6.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/2471526558ad412fa23d25209900384c 4. 图片中的SKU画像场景 https://p5.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/2f26cc57f88547d88b202af1970e0072 从上面的源代码之中我们可以清晰地看到:货架层数、SKU名称、货架序号、置信度、SKU在图片中的位置、SKU在该层从左到右的顺序以及该位置的排序。 百度智能云可以做到这些点,它可以精准地提取出一张图片的有效信息,这也是刘润在数字化中所讲的数字“粗炼”的最好诠释。 总结:图像识别技术能否可以有效地应用到快消品数字化采集之中,是企业数字化转型中数字采集“粗炼”的重要核心之一。它可以将数字采集真实层面提高到精准层面,可以更多地去“人为化误差”,为下一步的“信息”、“知识”、“智慧”保驾护航。 写在最后: 十年前后,快消品行业发生了翻天覆地的变化,科技技术已经渗透到快消品的所有环节,不得不承认它们对快消品行业的影响和改变非常大且非常深远。 https://p5.toutiaoimg.com/large/tos-cn-i-qvj2lq49k0/9b401352a5d04eda9531d71ea7919a86 所有的品牌商都应该拥抱这些新技术,当然市场的需求必然会带来科技公司的鱼龙混杂,就拿图像AI识别技术而言,哪些是真智能,哪些是假智能,要有辨析能力。要尊重科技,解放基层人员手脚,用科技让复杂的快消品世界变得更简单。 原文章作者:新经销,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    3342 0
  • 智飞侠实景三维建模方法原理昆明无人机图像识别鑫疆基业
    http://i1.go2yd.com/image.php?url=YD_cnt_0_016cWhuiARdy 随着无人机技术的快速发展,无人机在续航、飞行稳定性等方面都取得了较大的进步,已经可以满足不同行业的应用。在无人机获取高分辨率影像系统中,飞行遥感平台由飞行控制系统、遥感传感器系统和无人机通讯设备组成,飞行控制系统由惯性导航系统、飞控板、接收机和数码相机控制设备组成,其中数码相机控制设备与飞行控制系统一体化设计,遥感传感器系统由影像获取设备、气压传感器、空速传感器和转速传感器组成。 无人机遥感技术应用的优势 监测范围明显扩大 通过无人机遥感技术能够准确地开展小范围监测工作,大幅提升了监测应用效果。同时随着现代科技水平的不断提高,无人机遥感技术也在不断发展,监测范围也在不断扩大。在工程测绘中,可以针对不同范围开展测量工作,且该项技术还可以进行三维立体监测,提升测量数据的直观性。 监测效率大幅提高 运用无人机遥感技术能够有效提高监测效率,从而更好地处理与解决监测中出现的各种突发问题。以往监测效率较低时,在监测过程中很容易出现一些漏洞,且无法及时解决,严重阻碍了测绘工程的顺利进行。因此,在开展工程测量过程中,必须要重视无人机遥感技术的应用,以保证监测效率,这样才能做到及时发现问题和解决问题,保障测量工作的质量和水平。 遥感技术系统兼容性较高 应用单一的遥感技术开展测绘工程测量工作,很难确保测量数据的准确性,因此应当确保无人机技术适用于多种场合,实现多技术的协同作用,才能有效弥补单一技术手段应用存在的不足和缺陷,确保测量数据的准确性,使无人机遥感系统兼容性得到进一步提高,助力高效完成相关测量工作。 信息处理速度较快 随着科学技术的快速发展,无人机遥感技术有也获得了很大的提升,相关技术也在不断完善。利用无人机遥感技术开展测量工作,获取的数据信息能够及时地传输到有关决策部门,确保技术人员能够有效地对数据信息进行处理。 此外,和传统卫星处理技术相比,无人机遥感技术在图像分辨率上更具优势,清晰度较高,这对确保监测数据的准确性具有重要的意义,更是提升测绘工程质量的关键之处。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    最后回复 摒晴 2021-12-22 13:01
    1610 0
  • 一目了然卷积神经网络
    An Intuitive Explanation of Convolutional Neural Networks 原文地址:https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/comment-page-4/?unapproved=31867&moderation-hash=1ac28e426bc9919dc1a295563f9c60ae#comment-31867 一、什么是卷积神经网络、为什么卷积神经网络很重要? 卷积神经网络简称ConvNets 或CNNs 属于分类神经网络,在某些领域已经被验证非常有效,比如图像识别、分类领域。ConvNets 不仅仅在人脸、物体、交通标志识别成功而且还助力于机器视觉与自动驾驶。 http://5b0988e595225.cdn.sohucs.com/images/20191204/6cb71f35f94b439bb7de4825e8b585ed.jpeg 图 1: 来源 [1] 在上图 图1中ConvNet 可以识别场景并且系统可以建立相关关联(“一个足球运动员在踢足球”),然而在下图 图2的示例中展示了ConvNets 用于识别物体、人和动物。最近,ConvNets 在某些自然语言处理任务(例如句子分类)中也有效。[ 注:微软小冰、苹果Siri 等,读者也可以调用微软AI搭建自己的应用程序。译者加] http://5b0988e595225.cdn.sohucs.com/images/20191204/5f6080d780884250834e34a644c3cb58.jpeg 图 2: 来源 [2] 因此,ConvNets 对于大多机器学习从业者来说是一个很重要的工具。 然而有时候对于首次理解ConvNets、学习使用ConvNets 来说可能令人生畏。本博客主要目的是加深理解 ConvNet 如何处理图片。 通常来说如果你对神经网络不熟悉,我推荐在继续阅读之前 阅读 this short tutorial on Multi Layer Perceptrons 以熟悉了解 ConvNe t的工作原理。多层感知器在本文中称为 “Fully Connected Layers” 。 二、LeNet 结构(1990年) LeNet 是最早推动深度学习领域的卷积神经网络之一。这项开创性工作自1988年[3]以来,在多次迭代成功之后被 Yann LeCun 命名为 LeNet5 . 在当时 LeNet 结构主要被用于字符任务,比如读取邮政编码、数字等。 下面,我门将直观的介绍 LeNet结构 学习如何识别图像。近年来有几种新的体系结构对 LeNet 进行了改进,然而它们都使用了LeNet 的主要概念,如果你对LeNet 有清晰的理解,则相对容易理解以下内容。 http://5b0988e595225.cdn.sohucs.com/images/20191204/386af0717677450994520c15f6fc6e82.png 图 3: 一个简单卷积神经网络. 来源[5] 图3 中的卷积神经网络在结构上与原始LeNet 类似,有四个输入分类:狗、猫、船和鸟(原始LeNet 主要用于字符识别任务)。从上图明显可以看出,在得到一个船的图片作为输入,该网络在所有分类中正确的标记最高的可能性为船(0.94)。输出层中所有输出可能性之和应该为1.(稍后解释为什么总和应该为1) 以上图3 显示了 ConvNet 中的4个主要操作。 1、卷积 - Convolution 2、非线性 - ReLU 3、池化 - Pooling 4、分类 - Classification 每一个卷积神经网络都包含了这些基本构筑块,因此理解以上步骤原理,对于理解ConvNet 是非常重要的一步。我们将在下面尝试直观的理解这些步骤背后的操作。 三、图像 - 一个像素矩阵 本质上,每一个图片都能用一个像素矩阵表示。 [注:这是ConvNet 的基础 。译者加] http://5b0988e595225.cdn.sohucs.com/images/20191204/d98304d9ba8a409ea02fa5f3702acfb4.gif 图4: 图片-像素矩阵. 来源[6] 通道-Channel 是用于指代图片某一部分的常规术语。标准数码相机中的图像具有3个通道 红、绿、蓝,可以想象为3个2维矩阵的叠加(每种颜色一矩阵),每一个像素值在0到255之间,包含0和255。 灰度图-grayscale 只有一个通道。出于本文目的,我们将只考虑灰度图像,因此我们将一个二维矩阵代表一个图片。矩阵中的每一个值都在0到255之间,0 表示黑色,255 表示 白色 。 四、卷积步骤 ConvNet 得名于它的 “卷积-convolution” 操作。对于 ConvNet 来说,卷积操作主要是为了从输入图像中提取特征。卷积通过使用输入数据的小方块学习图像特征,保留像素之间的空间关系。在这里我们不讨论卷积的具体数学原理,只是了解卷积在图像处理上的原理。 如上述讨论,每一个图片都可视为一个像素矩阵。如下一个 5 * 5 的图像,像素值只包含0 和 1 (注:对于灰度图,像素值在0到255,下图是一个特例仅包含0和1): http://5b0988e595225.cdn.sohucs.com/images/20191204/516a5f102d1b432d8f6e9ad72ba8e15c.png 同时,考虑另外一个 3 * 3 矩阵 如下图所示: http://5b0988e595225.cdn.sohucs.com/images/20191204/14e04f90c0d44c17b1a39c47e2f94e75.png 然后,可以计算出 5 * 5 图像 和 3 * 3 矩阵卷积结果,如下动图 图5 所示: http://5b0988e595225.cdn.sohucs.com/images/20191204/94dbf9c4880c48b0b915d75ab83b4892.gif 图 5: 卷积操作. 来源[7] 花点时间理解一下上面卷积过程的计算是如何完成的。我们将橙色矩阵在原始图像(绿色)上滑动一个像素(也成为“跨度”),针对每一个位置我们计算元素的“wise”乘法(两个矩阵之间)然后将乘法输出相加获取最终的整数结果,该结果作为输出矩阵的单个元素(粉红色矩阵)。请注意, 每一步中 3 * 3 矩阵仅仅是输入图像的一分部。 3 * 3 矩阵,在 CNN 术语中被称为:“过滤器-filter” 或 “内核-kernel” 或 “特征检测器-feature detector”;通过在原始图上滑动 “过滤器-filter” 并计算点积所形成的矩阵称为:“卷积特征-Convolved Feature” 或 “激活图-Activation Map” 或 “特征图-Feature Map”。请注意,在原始输入图像中过滤行为作为特征检测非常重要。 从上面的动画图可以看出,对于同一个输入图像,不同的过滤矩阵产生不同的特征图。例如,考虑以下输入图像: http://5b0988e595225.cdn.sohucs.com/images/20191204/6a6004ab18784ad18b9735487f1dc21a.png 在下图表中,我们可以看到使用不同的过滤器在图上的卷积效果。如图所示,在卷积操作[8]之前我们可以通过改变过滤器矩阵的数值执行操诸如 边缘检测-Edge Detection、锐化-Sharpen和模糊-Blur 之类的操作,这意味着不同的滤镜可以检测图像中的不同特征,例如边缘、曲线等。更多的此类示例可以在8.2.4 节获取。[注:https://docs.gimp.org/en/plug-in-convmatrix.html 链接Not Found ,译者加] http://5b0988e595225.cdn.sohucs.com/images/20191204/4b43b62d8675472dae776bf8831a17a2.jpeg 也可以通过下图 图6 动画所示,直观的理解卷积操作。 一个过滤器(红色轮廓矩形)划过输入图像(卷积操作)产生一个特征图。如图,卷积操作的另外一个过滤器(绿色轮廓矩形)在同一张图上得到了一个不同的特征图。特别注意,卷积操作会捕获原图像中的局部依赖。同时也要注意,这两个不同的过滤器如何从同一张原始图像中生成不同的特征图。记住,我么讨论的前提是,原始图像和两个过滤器都是数字矩阵。 实际上,CNN 在训练过程中会自行学习这些过滤器的值(尽管如此,在训练模型之前我们仍需要指定参数例如:过滤器数量、过滤器大小、网络结构等)。过滤器越多,将会提取到越多的图像特征,这样我们的网络在识别未知图像时更有效。 特征图(卷积特征)的大小取决于执行卷积步骤前确定的 3 个参数[4] : 深度-Depth : 深度对应我们用于卷积操作的滤波器数量。图7 所示神经网络中,我们在原始图像中使用 3 个不同的过滤器,因此产生了三个不同的特征图。你可将这 3 个特征图想象为堆叠的 2 维矩阵,因此 该特征图的深度就是 3。 http://5b0988e595225.cdn.sohucs.com/images/20191204/44fe73f9157341a1a9604961b35d9aa3.png 图 7 跨度-Stride: 跨度就是我们的过滤矩阵每次划过原始输入矩阵的像素数。当跨度为 1 时,我们的过滤器每次移动一个像素。当跨度为 2 时,此时过滤器每次滑动跳过两个像素。跨度较大产生的特征图较小。 零填充-Zero-padding: 有时候,使用 0 填充输入矩阵的边界非常方便,因此我们可以应用过滤器作为输入图像矩阵的边界元素。Zero-padding 一个优点就是允许我们控制特征图的大小。添加 Zero-padding 也成为宽卷积,反之不使用 Zero-padding 称为 窄卷积。在 [14] 中对此作了明确的解释。 五、ReLu 介绍 在上面 图3中每一次卷积操作之后都使用了一个叫 ReLu 的附加操作。ReLU 代表 Rectified Linear Unit ,它是非线性操作。它的输出如下图: http://5b0988e595225.cdn.sohucs.com/images/20191204/06d9911ab8dd4bdf8a68990cc5b4e1d9.png 图8: ReLU 操作 ReLu 是一个元素 “wise operation”(应用于每一个像素),在特征图中将负像素全部替换为零。ReLU 的目的是在我们的 ConVNet 中引入非线性,因为大多数真实世界中的数据,因此我们希望 ConvNet 学习是非线性的(卷积操作是 “element wise” 的矩阵乘法和加法 属于线性操作 ,因此我们引入如ReLU之类的非线性函数解决非线性问题)。 下图 图9 可以明了的理解 ReLU 操作。它展示了上图 图6中获取特征图之一的 ReLU 操作。要输出的特征图 在这里也被称为 “Rectified” 特征图 。 http://5b0988e595225.cdn.sohucs.com/images/20191204/1d8c836a124f410d823dd670274a5e39.jpeg 图9: ReLU 操作. 来源[10] 可以使用其它非线性函数例如:tanh 、sigmoid 替代 ReLU ,然而 ReLU 被发现在大多数场景下表现更为出色。 六、池化 空间池化(也称子采样或向下采样) 降低了每个特征图的维度同时保留了最重要信息。空间池化有不同的类型:Max、Average、Sum 等。 在 Max pooling 中,我们定义了一个空间邻域(例如:2 * 2 区域)在该空间邻域内校正后的特征图中获取最大值。除了获取该邻域的最大元素值,我们也可以获取平均值(Average Pooling)或 总和。在实践中, Max Pooling 表现的更为出色 。 图 10 中展示了在“校正特征图-Rectified Feature map”(卷积操作+ReLU 操作) 上使用 2 * 2 过滤器的 Max Pooling 操作。 http://5b0988e595225.cdn.sohucs.com/images/20191204/57691fae990c481681ed2f4395c1566f.png 图 10: Max Pooling. 来源[4] 我们每次滑动 2 * 2 过滤器 2小格(也称“跨度”),同时取出每个区域的最大值。如 图 10 所示,Max Pooling 操作会降低特征图的维度。 下图 图11 所示的神经网络中,池化操作应用于每个不同的特征图(注意因此,从三个输入图 得到三个输出图)。 http://5b0988e595225.cdn.sohucs.com/images/20191204/1ea60e6557884442864d06a7bd118dfa.png 图11: 校正特征图-Rectified Feature Maps 池化 图 12 展示了池化操作对 图9 进行ReLU操作后校正特征图-Rectified Feature Map的作用结果。 http://5b0988e595225.cdn.sohucs.com/images/20191204/0306e5d896a04b3fb780774b5cde8609.jpeg 图12: 池化. 来源[10] 池化的作用是逐渐减少输入维度的大小[4]。池化有以下要点: 使输入描述- input representations(特征尺寸)更小且易于管理-more manageable。 减少神经网络中的参数和计算量,因此,要注意控制过拟合-Overfitting[4]。 使网络中对输入图像中 降维-small transformations、失真-distortions、平移-translations保持不变(我们获取领域中的 最大/平均值,因此输入中的少量失真不会改变池化输出)。 帮助我们获取图像的几乎不变的不变表示(“等变-equivariant”)。这对我们检测到图像中的任意地方的对象非常有用(详情阅读[18] 和[19])。 七、小结-Story so far http://5b0988e595225.cdn.sohucs.com/images/20191204/e950a7581a594e0ea4455fbe79c56802.png 图 13 截止目前为止,我们已经了解了 卷积、ReLU、池化的工作原理。这对我们理解任意 CNN(卷积神经网络)的基本构造块和层非常有用。如 图13 所示我们有2组 卷积、ReLU 和池化层,第二个卷积层对第一个池化层的输出使用6个过滤器产生六个特征图;然后,ReLU 作用于第二层卷积输出的6个特征图;然后我们使用 Max Pooling 操作上步骤处理之后的6个校正特征图- rectified feature maps。 这些层组合在一起,对于从图像中提取特征非常有用,在神经网路中引用非线性-non-linearity和减小特征尺度,同时旨在有些特征在进行缩放和平移时保持等变[18]。 我们将在下一节讨论,第二个池化层的输出充当完全连接层-Fully Connected Layer的输入。 八、完全连接层-Fully Connected layer 完全连接层是一个传统的多层感知器,在输出层使用 softmax 激活函数(也可以使用诸如 SVM 的分离器,然而本文使用 softmax)。术语“Fully Connected” 意味着上层的每个神经元都连接到下一层的每个神经元。如果你对多层感知器不熟悉,推荐阅读 A Quick Introduction to Neural Networks 。 卷积和池化层的输出代表输入图像的高层次特征-high-level features。完全连接层的作用是根据训练集的这些特征将输入图像进行分类。例如,图14 展示我们执行图像分类任务有四个可能的输出(请注意,图14没有展示完全连接层之间的节点链接)。 http://5b0988e595225.cdn.sohucs.com/images/20191204/500d7e82fab54879a4baad26caf950a5.png 图 14: 完全连接层的每个节点都连接到相邻层每个节点 除了分类问题,添加一个完全连接层是通常一种廉价的方式去学习组合这些非线性特征。卷积和池化层得到的大多数特征也许有助于分类任务,但是将这些特征进行组合也许会获取更好的结果[11]。 完全连接层输出的概率总和为 1 ,这确保了完全连接层作为输出层使用 Softmax 激活函数。Softmax 函数接受任意实数分数向量并且压缩它的向量值在 0 和 1 之间 总和为 1. 九、放在一起-使用反向传播训练 Putting it all together – Training using Backpropagation 由以上讨论可以得出,卷积和池化层充当输入图像特征提取器,完全连接层充当分类器。请注意下图 图15中,由于输入图像是船,船的目标概率是 1 其它三类的概率为 0 。 输入图像 = 船 目标矢量 = [0,0,1,0] http://5b0988e595225.cdn.sohucs.com/images/20191204/979f8ae3e5d84fd2ab905eb5c6cd786d.png 图15: 训练 ConvNet 卷积神经网络的训练过程总结如下: Step1:使用随机值初始化所有的过滤器、参数、权重 Step2:网络使用训练图像作为输入,经过向前传播步骤(卷积、ReLU、池化操作以及完全连接层中的向前传播)并找到每个类别的输出概率。 可以说上面船图像的输出概率为 [0.2,0.4,0.1,0.3] 由于第一次训练样本分配的是随机权重,因此输出概率也是随机。 Step3:计算输出层的总误差(所有4个分类之和) Total Error = ∑ (target probability – output probability) Step4: 使用反向传播-Backpropagation 在网络中计算所有权重的梯度误差,并且使用 梯度下降更新所有的过滤器、权重、参数值使得输出误差最小。 根据对总误差的贡献大小调整权重。 当再次使用同一个输入图像,输出概率现在可能是 [0.1,0.1,0.7,0.1],输出概率接近于目标矢量[0,0,1,0]。 这意味着网络已经学会通过调整它的权重、过滤器、正确分类特定图像,从而减小输出误差。 训练过程中网络参数过滤器数量、过滤器大小、网络结构等,都在步骤1中已确定不会改变,只有过滤器矩阵的值和连接权重会更新。 Step5: 对训练集中的所有图像重复步骤2-4 。 上面的训练 ConvNet 的步骤,意味着 ConvNet 所有的权重参数现已经经过优化,可以对训练集中的图像进行正确的分类。 当一个新图像(未经过训练)输入到 ConvNet ,网络将通过向前传播步骤并且输出每个类别的概率(对于新图像,网络使用之前训练样本优化过的权重计算输出概率)。如果你的训练集足够大,网络将对新图像 友好-generalize well 并将它们正确的分类。 注 1:上面的步骤已经经过简化并且隐藏了数学细节,对训练过程提供一个直观理解。有关数学公式及更深刻的理解查看[4] 和[12] 。 注 2:上面的例子中我们使用了两组交替的卷积和池化层。请注意在单个 ConvNet 中这些操作都可重复若干次。事实上,当前一些表现良好的 ConvNets 存在数十个 卷积和池化层。每个卷积层之后不一定要存在一个池化层。从下图 图16 可以看出,在进行一次池化操作之前我们可以连续使用多个卷积和 ReLU 操作。同时注意 下图 图16中 ConVNet 每一层的可视化。 http://5b0988e595225.cdn.sohucs.com/images/2011204/e30b1ead933e4186993661dc9921cf9f.jpeg 图16: 来源[4] 十、卷积神经网络可视化-Visualizing Convolutional Neural Networks 一般来说,更多的卷积步骤,意味着网络可以学习识别更多复杂的特征。例如,图像分类中一个 ConvNet 在第一层从原始像素中可以学习边缘检测-detect edges,然后使用边缘在第二层检测简单形状,然后使用这些形状图确定高层次特征,比如较高层中的面部形状[14]。如下图17所示,这些使用 Convolutional Deep Belief Network 学习这些特征,此图在这里仅仅为了展示这个思想(这仅仅是一个例子:实际上卷积过滤器检测到的对象可能毫无意义)。 http://5b0988e595225.cdn.sohucs.com/images/20191204/35b19e4162844a9cbe9f1ff8a7e76bd7.png 图17: 从 Convolutional Deep Belief Network 学习特征. 来源[21] Adam Harley 在训练MNIST手写数字集卷积神经网络时,创造了惊人的可视化效果 [13]。强烈建议使用playing around 理解CNN 的工作原理。 我们可以看到网络对于输入“8”的处理方式。注意图18可视化未单独展示ReLU操作。 http://5b0988e595225.cdn.sohucs.com/images/20191204/380b9f25f07e4de49f5d360503da9921.jpeg 图18: 可视化 ConvNet 训练手写数字. 来源[13] 输入图像包含 1024 个像素(32 * 32 图片), 6 个 5 * 5(跨度1) 过滤器卷积输入图像形成第一个卷积层。可以看出,使用 6 个不同的过滤器产生深度为 6 的特征图。 卷积层1 之后是池化层,池化层 使用 2 * 2 max pooling(跨度为2)分别作用于卷积层1中的 6 个特征图。你可以在池化层中的任意移动鼠标指针,在前一个卷积层观察 2 * 2 的小格(如图19所示)。你会注意到 2 * 2 小格的最大像素值被填充到池化层。 http://5b0988e595225.cdn.sohucs.com/images/20191204/9cc1d635107f4e16b75746a7383e42d1.jpeg 图19: 可视化Pooling 操作. 来源[13] 第一个池化层之后 使用了 16 个 5 * 5 (跨度 1)卷积过滤器执行卷积操作。接下来对第二层进行 2 * 2 max pooling(跨度 2)池化操作。 这两层使用了与上述相同的概念。 此时我们有三个完全连接层(FC)。它们是: 第一层完全连接层,具有 120 个神经元 第二层完全连接层,具有 100 个神经元 第三层完全连接层,具有 10 个神经元对应 10 个数字,也称输出层 观察下图 图20 中的方式,输出层 10 个节点的每一个节点都连接 第二层完全连接层的所有 100 个节点(因此,命名为全连接)。 同时注意,输出层的唯一亮点怎样与 “8” 对应,这意味着我们的网络对手写数字进行了正确分类(较亮的的节点表示较高的输出,也就是说 8 在所有数字中有最高的概率)。 http://5b0988e595225.cdn.sohucs.com/images/20191204/a820cdf8104d4d4a80bbd747e07c7fcf.png 图20: 可视化完全连接层. 来源[13] 此处提供了相同可视化的 3D 版本 here 。 十一、 其它 convNet 结构 卷积神经网络最早可追溯到 1990年。以上我们讨论的 LeNet 属于最早的神经网络之一。下面罗列了一些其它有影响的网络结构[3] [4]。 LeNet (1990年):本文已经介绍。 1990 到2012年:自从1990 年以后到2010年早些时候卷积神经网络得到了发展。随着可用越来越多的数据量和强大的计算能力,卷积神经网络可以解决的任务越来越有趣。 AlexNet (2012):在2012年,Alex Krizhevsky (和其他人)发布了 AlexNet ,该网络是在 LeNet 基础上更深更广的版本,并且在2012年赢得了 ImageNet 大规模视觉识别挑战赛(ILSVRC)。与以前的网络相比这是里程碑式的突破,当前 CNN 的广泛应用都可以归功于此项工作。 ZF Net (2013):Matthew Zeiler 和 Rob Fergus 的卷积神经网络 赢得了2013年的ILSVRC 。它被称为 ZFNet(Zeiler 和 Fergus Net的简写)。通过对 AlexNet 超参数的调整提升该网络。 GoogLeNet (2014):2014年ILSVRC 的赢得这是来自谷歌Szegedy等人的卷积神经网络。它的主要是贡献是开发了一个 Inception 模块,该模块大大减少了网络中的参数数量(相比较AlexNet 的60M 它只有4M)。 VGGNet (2014):VGGNet 赢得了2014年 ILSVRC 的亚军。它的主要贡献是表明网络深度(层数)是获得良好性能的关键要素。 ResNets (2015):Kaiming He (和其他人) 开发的 Residual Network 赢得了2015年的 ILSVRC 。ResNets 是目前最先进的卷积神经网络模型,实践中默认使用的 ConvNets 模型(截止2016年5月)。 DenseNet (August 2016) :最近由Gao Huang (和其他人)发布的 Densely Connected Convolutional Network,该网络使用前馈的方式直接连接到其它每一层。事实证明,DenseNet在先前最新先进架构识别五个高度竞争对象的基准任务上有显著提升。此处查看Torch 的实现 here 。 十二、结论 本文中,我试图使用简单的术语解释卷积神经网络的主要概念。这里简化、跳过了一些细节,但是希望本文能让你直观的理解它们如何工作。   本文最初由Denny Britz的《Understanding Convolutional Neural Networks for NLP》(推荐阅读)启发而来,这里许多解释都源于该文章。为了更深入理解这些概念,鼓励你体验 斯坦福 ConvNets课程 笔记 以及下面参考文献中的有些资源。如果你理解上述概念遇到任何问题或者 有问题或建议,随时在下面发表评论。 该文所引用到的图片动图均属于原作者,如以下参考文献所罗列。 十三、参考文献 karpathy/neuraltalk2: Efficient Image Captioning code in Torch, ExamplesShaoqing Ren, et al, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”, 2015, arXiv:1506.01497Neural Network Architectures, Eugenio Culurciello’s blogCS231n Convolutional Neural Networks for Visual Recognition, StanfordClarifai / TechnologyMachine Learning is Fun! Part 3: Deep Learning and Convolutional Neural NetworksFeature extraction using convolution, StanfordWikipedia article on Kernel (image processing)Deep Learning Methods for Vision, CVPR 2012 TutorialNeural Networks by Rob Fergus, Machine Learning Summer School 2015What do the fully connected layers do in CNNs?Convolutional Neural Networks, Andrew GibianskyA. W. Harley, “An Interactive Node-Link Visualization of Convolutional Neural Networks,” in ISVC, pages 867-877, 2015 (link). DemoUnderstanding Convolutional Neural Networks for NLPBackpropagation in Convolutional Neural NetworksA Beginner’s Guide To Understanding Convolutional Neural NetworksVincent Dumoulin, et al, “A guide to convolution arithmetic for deep learning”, 2015, arXiv:1603.07285What is the difference between deep learning and usual machine learning?How is a convolutional neural network able to learn invariant features?A Taxonomy of Deep Convolutional Neural Nets for Computer VisionHonglak Lee, et al, “Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations” (link) 原文章作者:xamarin,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    3548 0
  • 科研须知:这些操作,做了就是图像造假!
    题记 论文图像造假的新闻屡见不鲜。 2018年,来自斯坦福、霍普金斯、华盛顿的学者发布有关全球学术论文图片造假的研究报告,指出全球有348个国家和地区存在图像造假。中国是重灾区,问题图片文章数占全球的49.52%左右。 这些学术不端包含了篡改、重复使用、剽窃等10多种行为。 http://5b0988e595225.cdn.sohucs.com/images/20191003/dc15e0f32051400dba0200d44dfc58ef.jpeg 案例1:调色后重复使用 http://5b0988e595225.cdn.sohucs.com/images/20191003/13856762f4bd44dc829a061a5874cbce.jpeg 案例2:复制拼图 http://5b0988e595225.cdn.sohucs.com/images/20191003/c893e7d88a0045c9b96a5b57bec9733a.jpeg 借助人工智能手段,造假侥幸成功的概率越来越小,成功了也早晚被翻旧账。 美国雪城大学(Syracuse University)的Daniel Acuna博士报道了一种图片比对算法,可以在海量生物医学论文中自动搜寻重复图片,类似于目前的论文查重。无论进行了多么复杂的PS修图——旋转、裁剪、放大及缩小、调整亮度和对比度、模糊等,都会被快速识别出来。 抛开这些故意篡改、造假的案例,在日常处理实验数据过程中,还可能由于图像知识的欠缺和盲区,无意识中触犯红线,最后死的不明不白。 简单来说 为了说明图像失误是如何在不知不觉中出现,以下列举一些常见的场景 过曝: 过曝会导致细节的丢失,以及样本间信号强度差异的丢失。这时若再进行定量分析,结果便不可信 http://5b0988e595225.cdn.sohucs.com/images/20191003/c81769e634a1404a8b31617283647185.jpeg 非线性调色: 非线性调色对同一图像中的不同像素,进行了不一致的强度信息操作,导致结果偏离真实。在调节对比度、gamma值过程中,都会不同程度的产生非线性偏差。如下图中,不合理的非线性调节,可分别使得绿色通道中的弱/中信号变强,或反过来消失 http://5b0988e595225.cdn.sohucs.com/images/20191003/325fd80331024c4e88e04cc71c859b44.jpeg 过度的去背景、加伪彩等方式: 过度去背景会去掉弱信号 不合理的伪彩则可能会放大实际并不明显的差异,如下图所示,不同伪彩对图像呈现结果的影响 http://5b0988e595225.cdn.sohucs.com/images/20191003/ace473303cad4eb9859a356c9e28203e.jpeg 图像格式带来的错误: 灰度/RGB切换后的定量结果、8bit/16bit图带来的、图像压缩、滥用JPEG格式。如下图中,8位图和16位图转换方法不当导致灰度信息压缩丢失 http://5b0988e595225.cdn.sohucs.com/images/20191003/ad2b5a0cdf8e493c891634fa01e9aa1f.png 图像处理/分析流程错误: 去噪、通道叠加、定量分析等过程中,因流程错误导致的结论失真。如下图中,根据不同的实验设计,应当使用完全不同的选区工具,再进行荧光定量分析 http://5b0988e595225.cdn.sohucs.com/images/20191003/5d5d519ece784f8c89fc2d16327b69f6.jpeg 盗版软件的使用: 比如Nature杂志规定所有图像必须注明采集及处理的方法细节,如果使用了存在版权争议的软件工具,结果的正当性和准确性都将受到质疑。 局部修改: 局部修改在科研图像里面非常敏感,但大部分科研工作者只知道狭义的局部修改——如对图像中的某个细胞进行修改。实际上更容易发生的是另一种“局部修改”,如:调节对比度(对强弱像素的操作相反)、不同实验组调节(导致结果不可比) “In short, any digital technique that isn't applied to the entire image is suspect and needs to be explicated to the reader in the Methods or Supplementary Information. ” 什么是科研图像伦理 Ethics in Scientific Image Processing 系统的讲,科研图像伦理(Ethics in Scientific Image Processing) 指的是图像处理涉及的全流程,包括:试验参数、图像获取、图像格式、预处理、分析方法、分析后结果展示等环节。 我们将其框架整理如下(参考资料:https://imagej.net/Principles),供大家参考 图像获取 足够的分辨率 避免压缩 最短的照射时间 避免串色 样品准备 图像处理 像素、强度、图像格式注意事项 需要二元化的场景 手动处理场景 自动处理场景 分析前其他关键事项 如何选择分析区域 对预处理结果的评估 彩色图的处理 图像分析方法 面积、计数、强度的定量分析 3D 共定位 WB分析 追踪tracking 反卷积 学习资源 在Nature官网的这篇文章中,介绍了对图像数据的一般要求原则 https://www.nature.com/articles/439891b 在Nature的投稿要求中,则规定了对图像数据的要求细则 https://www.nature.com/nature-research/editorial-policies/image-integrity#electrophoretic-gels-and-blots 如下链接中,包含了图像分析的标准方法,包含:常规图像操作、定量分析、共定位、WB分析等 https://imagej.net/Category:Techniques 来源:BioWorld2019-09-13 原文章作者:癌图腾,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    1708 0
  • 人工智能技术的细分领域有哪些?
    人工智能技术的细分领域有哪些? 随着智能家电、穿戴设备、智能机器人等产物的出现和普及,人工智能技术已经进入到生活的各个领域,引发越来越多的关注。那么,人工智能目前都应用在哪些领域,运用了怎样的技术原理呢? 什么是人工智能? 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是认知、决策、反馈的过程。 曾经有很多人戏称,人工智能就像一列火车,你苦苦期盼,它终于来了,然后它呼啸而过,把你抛在身后。虽然这是一种笑谈,但也反应了人工智能技术发展的迅速和无法想象的快,可能一个不小心,你就被远远甩在身后。 人工智能技术的细分领域有哪些? 人工智能技术应用的细分领域:深度学习、计算机视觉、智能机器人、虚拟个人助理、自然语言处理—语音识别、自然语言处理—通用、实时语音翻译、情境感知计算、手势控制、视觉内容自动识别、推荐引擎等。 1、深度学习 深度学习作为人工智能领域的一个应用分支,不管是从市面上公司的数量还是投资人投资喜好的角度来说,都是一重要应用领域。说到深度学习,大家第一个想到的肯定是AlphaGo,通过一次又一次的学习、更新算法,最终在人机大战中打败围棋大师李世石。百度的机器人“小度”多次参加最强大脑的“人机大战”,并取得胜利,亦是深度学习的结果。 http://p5.itc.cn/images01/20201209/27921228521c4882aec8685db7f9bb7d.jpeg 深度学习的技术原理: 1.构建一个网络并且随机初始化所有连接的权重; 2.将大量的数据情况输出到这个网络中; 3.网络处理这些动作并且进行学习; 4.如果这个动作符合指定的动作,将会增强权重,如果不符合,将会降低权重; 5.系统通过如上过程调整权重; 6.在成千上万次的学习之后,超过人类的表现; 2、计算机视觉 计算机视觉是指计算机从图像中识别出物体、场景和活动的能力。计算机视觉有着广泛的细分应用,其中包括,医疗成像分析被用来提高疾病的预测、诊断和治疗;人脸识别被支付宝或者网上一些自助服务用来自动识别照片里的人物。同时在安防及监控领域,也有很多的应用…… http://p4.itc.cn/images01/20201209/53d95805ec544ba8b540b6ad50c941e6.jpeg 计算机视觉的技术原理: 计算机视觉技术运用由图像处理操作及其他技术所组成的序列来将图像分析任务分解为便于管理的小块任务。比如,一些技术能够从图像中检测到物体的边缘及纹理。分类技术可被用作确定识别到的特征是否能够代表系统已知的一类物体。 3、语音识别 语音识别技术最通俗易懂的讲法就是语音转化为文字,并对其进行识别认知和处理。语音识别的主要应用包括医疗听写、语音书写、电脑系统声控、电话客服等。 http://p1.itc.cn/images01/20201209/c52d558a26e843ac9b29ffcd9e241983.jpeg 语音识别技术原理: 1、 对声音进行处理,使用移动窗函数对声音进行分帧; 2、 声音被分帧后,变为很多波形,需要将波形做声学体征提取,变为状态; 3、 特征提起之后,声音就变成了一个N行、N列的矩阵。然后通过音素组合成单词; 4、虚拟个人助理 说到虚拟个人助理,可能大家脑子里还没有具体的概念。但是说到Siri,你肯定就能立马明白什么是虚拟个人助理。除了Siri之外,Windows 10的Cortana也是典型代表。 http://p2.itc.cn/images01/20201209/e4b20a7813c64787833f3a9c18ac5e23.jpeg 虚拟个人助理技术原理:(以Siri为例) 1、用户对着Siri说话后,语音将立即被编码,并转换成一个压缩数字文件,该文件包含了用户语音的相关信息; 2、由于用户手机处于开机状态,语音信号将被转入用户所使用移动运营商的基站当中,然后再通过一系列固定电线发送至用户的互联网服务供应商(ISP),该ISP拥有云计算服务器; 3、该服务器中的内置系列模块,将通过技术手段来识别用户刚才说过的内容。 总而言之,Siri等虚拟助理软件的工作原理就是“本地语音识别+云计算服务”。 5、语言处理 自然语言处理(NPL),像计算机视觉技术一样,将各种有助于实现目标的多种技术进行了融合,实现人机间自然语言通信。 http://p5.itc.cn/images01/20201209/9be27610afb84474a2d40856d4481e2b.jpeg 语言处理技术原理: 1、汉字编码词法分析; 2、句法分析; 3、语义分析; 4、文本生成; 5、语音识别; 6、智能机器人 智能机器人在生活中随处可见,扫地机器人、陪伴机器人……这些机器人不管是跟人语音聊天,还是自主定位导航行走、安防监控等,都离不开人工智能技术的支持。 http://p9.itc.cn/images01/20201209/e9a705208cdd48b193b6548c48828ba7.jpeg 智能机器人技术原理: 人工智能技术把机器视觉、自动规划等认知技术、各种传感器整合到机器人身上,使得机器人拥有判断、决策的能力,能在各种不同的环境中处理不同的任务。 智能穿戴设备、智能家电、智能出行或者无人机设备其实都是类似的原理。 1 7、引擎推荐 不知道大家现在上网有没有这样的体验,那就是网站会根据你之前浏览过的页面、搜索过的关键字推送给你一些相关的网站内容。这其实就是引擎推荐技术的一种表现。 Google为什么会做免费搜索引擎,目的就是为了搜集大量的自然搜索数据,丰富他的大数据数据库,为后面的人工智能数据库做准备。 http://p8.itc.cn/images01/20201209/4597fc86247a431f8cebf39ea74a90d3.jpeg 引擎推荐技术原理: 推荐引擎是基于用户的行为、属性(用户浏览网站产生的数据),通过算法分析和处理,主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。快速推荐给用户信息,提高浏览效率和转化率。 关于人工智能的展望 除了上面的应用之外,人工智能技术肯定会朝着越来越多的分支领域发展。医疗、教育、金融、衣食住行等等涉及人类生活的各个方面都会有所渗透。 http://p7.itc.cn/images01/20201209/ed57ee9f40ed454196c23232d4470050.jpeg 当然,人工智能的迅速发展必然会带来一些问题。比如有人鼓吹人工智能万能、也有人说人工智能会对人类造成威胁 ,或者受市场利益和趋势的驱动,涌现大量跟人工智能沾边的公司,但却没有实际应用场景,过分吹嘘概念。 本文转自网络。 收藏举报 原文章作者:IT品论财经,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-22
    3013 0
  • CNN 是如何处理图像中不同位置的对象的?
    AI 研习社按:这篇博客来自 Jetpac(现被谷歌收购) CTO、苹果毕业生、TensorFlow 团队成员 Pete Warden。文中讨论了当要识别的对象出现在图像中的不同位置时,CNN 是如何应对、识别的。Pete Warden 给出的解释也许算不上完善,而且也依旧无法保证能够消除位置的影响,但这是一个不错的开始。AI 研习社全文编译如下。 http://5b0988e595225.cdn.sohucs.com/images/20180704/4f0d830ed54842daae9689d467a0d4ea.png 一位正在学习用卷积神经网络做图像分类的工程师最近问了我一个有趣的问题:模型是如何学会辨别位于图片中不同位置的物体的呢?由于解释这个问题需要大费些周章,我决定在这里把它们写下来,以帮助其他有类似困惑的人理解这个问题。 上面这两张示例图就可以表示我的这位朋友的问题。 如果你想要识别出所有包含太阳形状的图像,你要怎么保证不管这个太阳形状在哪里,模型都能把它识别出来呢?之所以这是一个有趣的问题,是因为在你完全理解这个问题之前,需要三个阶段的启蒙: 阶段一:如果你未曾尝试过计算机编程,这个问题看上去很简单,因为辨别位置的差异对我们的眼睛和大脑来说没有任何难度。 阶段二:如果你尝试过用传统的编程方法解决过类似的问题,你可能会感到窒息,因为你不仅知道处理这种差异会有多难,也明白更艰难的是向你的客户解释它的技术含量。 阶段三:作为一个得到认证的深度学习权威人士,你可能会摸摸胡子然后微笑,很欣慰这些琐碎的问题是由你建立的网络处理的而不是你本人。 我的朋友正处于启蒙的第三阶段,但也已经粗浅的了解了一些原理可以解释为什么 CNN 可以很好的处理这类问题。我并不会声称我对此有什么新见解,但经过过去几年在图像模型领域的工作经验我也有了一些自己的想法,结合学术圈子里师生之间口口相传的说法,我想将我所知道的分享给大家。欢迎大家补充与此相关的优秀文章连接,由于我的解释仅仅是基于我作为一名成熟的工程师的直觉和经验而来的,请大家帮助我更好的充实和提升这个解释。 首先要知道的是,神经网络并不是天然地对位置识别的问题免疫的。我最开始遇到这个问题是我当用 ImageNet 中的图片训练神经网络时。ImageNet 历史悠久,最初搜集者们利用谷歌图片搜索通过搜索类名称从公共网络中采集示例图片,之后再人工从中剔除不正确的图像。我的好朋友 Tom White 就热衷于在这项剔除异常的工作中挖掘奇闻异事,比如许多女模特的照片出现在了垃圾车类别里(参见改进模型架构遇到了瓶颈?你该考虑改善自己的数据了!)。Andrej Karpathy 通过完成手动标记图片的繁重工作,也对数据集的特点有了更深的理解。 说了刚才这么多,我的意思是,训练数据集中的所有图片都是由人拍摄出来,然后发布在知名网站上的。这意味着训练集中的图像会比随机截屏得来的要更专业,都有一个布局良好的实物主体,通常在靠近中间位置,平视视角拍摄,并占据了画面的大部分。相比之下,如果有人用手机摄像头对准一个物体拍照想让模型给它分类,这样的照片就很有可能有着奇怪的角度。它可能是俯视拍摄的,也可能只拍到物体的一部分,这就意味着,如果让模型识别手机拍摄的照片,它的表现就会比发表的论文里的准确率差的多,因为训练模型用的数据和用户想要识别的图片差别太大。如果你的安卓设备上安装了 TensorFlow 分类应用,你现在还能看到类似的问题。分类模型在手机上变得不好使还不是最糟糕的,因为至少手机用户们拍照的时候还是有一定的取景的。机器人以及类似设备上的图像识别就是一个严重得多的问题。由于这些设备的摄像头的指向是完全随机的,在 ImageNet 上训练的模型表现可谓是非常糟糕。我经常建议开发这些 app 的开发者用和目标设备类似的设备拍的照片作为训练数据集,毕竟除了取景之外,镜头等其他因素也有一些区别。 即便照片是人工选出的,ImageNet 中的图像在物体位置上还是有很多差异,所以神经网络是如何处理它们的呢? 其中的一个秘诀是,训练过程中通常会专门在输入中加入人工的偏移,神经网络就需要学会处理这类差异。 http://5b0988e595225.cdn.sohucs.com/images/20180704/4395b987f7ea4c7081ca06ae362b72c8.png 在这图片被输入到模型之前,它们有可能会被随机的裁剪。所有的输入都会被缩小到一个标准尺寸(一般是 200×200 或 300×300),这就将每张图片里物体出现的位置和大小随机化了,还有可能会剪切掉物体的一部分。模型始终都会依据预测的准确性得到惩罚或是奖赏,所以为了获得好的评分它必须在带有这些不同的状况下还能猜出图片里的物体。这解释了为什么神经网络会学习如何处理位置差异。 但这还没有结束。 为了继续深入,我必须得插入一些公认说法和类比。我没有可以支撑接下来的解释的研究,但在我的实验和与其他实践者的讨论中,这一理论是被广泛接受的。 自从开创性的神经网络 AlexNet 开始,CNN 的工作方式就是基于一系列连续的层,依次接收输入数据后最终形成分类操作。我们将初始层看作边缘探测器,寻找最基础的像素规律,之后的图层将初始图层得出的规律作为输入,进行更高级别概念的预测,如此循序渐进。看看一个典型的神经网络第一层过滤器是如何工作的会帮助你更好的理解这个过程: http://5b0988e595225.cdn.sohucs.com/images/20180704/b02b7cc3b07f48838803956d175edd32.jpeg 图片来自 Evan Shelhamer 对 Caffenet 的可视化工作 这张图展示的是每个过滤器所要查找的内容,有些是不同走向的边,其他的是色彩或角。遗憾的是这里无法用简明的图像将之后几层的情况表达出来,如果你想更深入的了解这方面的内容,Jason Yosinki 还有他的研究伙伴提供了一些不错的参考文献(http://yosinski.com/deepvis)。 下面的概念图可以帮助理解刚才说的内容。 http://5b0988e595225.cdn.sohucs.com/images/20180704/1a75ed1494a5417db9cb80eef99ac9f1.jpeg 第一层要寻找的是一些很简单的特征,比如水平边、角、以及纯色块。这与之前 CaffeNet 可视化的那张图要表达的类似。这些过滤器对输入图像进行地毯式的浏览,当找到所须内容时,就输出一张突出了其所在位置的热力图。 理解第二层发生了什么就有点难了。第一层过滤器输出的热力图被逐个分配到激活层的通道中,因此第二层的输入会有上百个通道,而不是像典型图像那样只有三到四个。第二层的任务是要在从这些热力图中找出更复杂的特征。如果要在图中识别出太阳的一瓣,这一瓣一端有一个角,另一端是一条垂直线,中间填上黄色。每个特征由输入激活层的通道表示,第二层中,「朝左的一瓣」过滤器就负责寻找同时符合这三个条件的通道组合。在仅有一个或两个条件满足的通道组合所在的位置,不会有输出,只有当满足所有条件的通道组合(只有在那些满足全部三个条件的位置),输出会呈现激活状态。 与第一层一样,第二层也有很多过滤器,它们表示的是更高一级的概念,像「朝上的一瓣」、「朝右的一瓣」等等。这很难用图来表示,笼统来讲就是会输出一个有很多通道的层,每个通道都表征着这一级别的概念。 随着学习深度加深,层要表达的概念就越来越高级。例如,第三或第四层通过将输入通道表征的概念进行组合,如果有黄色的、被花瓣围绕着的圆,就会显示出激活。写一个分类器把图像中的太阳找到就这样简单地做到了。现实中分类器不会像我之前例子中那样把概念切割的如此清楚,因为分类器会自己学习如何拆解问题,而不是以人类所能理解的分类方式来运行,但基本原理就是如此。 文章到现在还没能解释神经网络如何识别位置之间的差异。因此最后,你还需要了解另一种设计图像分类 CNN 网络时候的常见做法。随着网络的层次越来越深,通道的数量会显著增加,图像的尺寸则会缩小。缩小的过程由池化层完成,过去是利用平均池化但最近流行用最大池化来做。两者的效果相近。 http://5b0988e595225.cdn.sohucs.com/images/20180704/2a5f06216d9347ab8add7d0f7d4fff58.png 比如现在要将这张图被缩小为原来的一半,对每一个输出像素,我们以 2×2 的输入块为单位从中选出值最大的,因此这一过程被称为最大池化。而在平均池化中,是将这四个值的平均值传递到下一层。 这一池化过程会不断重复,把值在网络中传递下去。也就是说,最终,图像尺寸可能会从 300×300 缩小到 13×13。这样大的收缩量意味着位置变量的数量会大大缩减。就拿上面的例子来说,太阳只能在余下的 13 行、13 列像素中出现。如此一来任何小的位置差异都被隐藏起来,因为彼此具有微小差异的输出在最大池化过程都被融合在一起了。这使得最终分类器在位置差异问题的处理上会进行得更加有序顺利,因为它处理的是将原图信息精简许多以后的图像。 这就是我对分类器在处理位置变化问题上的解释,但对类似的问题,比如不同时间位置上的音频信号又是如何呢?最近我对一种可以替代池化,被称为「扩张」或者又叫「空洞」卷积的方法很感兴趣。与最大池化一样,它产出的是一个更小的图像,但工作原理是基于卷积方法本身的。不同于池化是采集相邻的输入像素,它对样本的选取是跨越式的,因此采集范围可以非常大。这使得扩张卷积可以很快的将非局部的信息整合到一起,成为一个更简洁有序的形式,这是 DeepMind 的 WaveNet 论文中的神奇的方法的一部分,能够用卷积而不是循环神经网络来解决基于时间的问题。 我对此感到很兴奋,因为循环神经网络的速度是个痛点。如果你要处理批量大小为 1 的数据,这在即时应用中是个很典型的问题,大部分计算都是矩阵和向量之间的乘法,计算强度相当于全连接层。由于每个权重只会用到一次,这类计算受限于计算机的存储能力而不是运算能力,而卷积却恰恰相反。因此我非常希望这种方法可以广泛应用于其他领域。 谢谢大家能看到这里。我希望这能帮到大家,欢迎大家在评论区或 Twitter 上对此提出改善的建议。 via petewarden.com,AI 研习社编译。 用 CNN 分 100,000 类图像 原文章作者:AI研习社,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    2860 0
  • 详解Facebook全新图像识别系统:无需依赖标记的自由搜索 ...
    选自Facebook 机器之心编译 参与:李泽南、杜夏德 Facebook 一直致力于让用户能够轻松搜索社交网络上的图片和视频内容,而无需依靠手动打上的标签。昨天,该公司的应用机器学习团队负责人 Joaquin Quionero Candela 宣布这一梦想终于得以实现,新的计算机视觉平台将从两个方面改善社交网络上的用户体验:基于图片本身(而不是图片标签和拍照时间)的搜索;升级的自动图片描述系统(可向视觉障碍者描述图片内容)。 回想一下你在社交网络中发的上条信息,内容很可能是一张照片或一个视频。但是,直到最近,在线搜索还一直是文本驱动的技术,即便你搜索的是图片。一张图片是否能够被找到还得依赖描述充分的标签或恰当的图注。 技术正在改变,我们已经将计算机视觉推向了下一个阶段,理解像素级别的图像内容。这有助于我们的系统做一些类似于识别图像内容、场景,里面是否包含著名地标的事情。这反过来也会帮助我们为视力受损的人更好地描述图片,以及为图像和视频搜索提供更好的结果。 建立「AI 工厂」 为了将人工智能纳入到 Facebook 工程中来,我们首先需要一个能让我们的工程师大规模利用的通用目的平台。这个平台叫 FBLearner Flow,设计这个系统是为了让打造机器学习流程的工程师不需要再担心硬件限制或因为实时流量而造成的服务质量问题。目前我们每个月要在 FBLearner Flow 上做 120 万次人工智能实验,次数要比一年之前多 6 倍。 这个平台应用的越来越广,我们正在其之上不断探索。从工具到机器学习的自动化过程,再到专用的内容理解引擎,我们已经建立了一个活跃的生态系统,让工程师编写能多机并行的训练工作流,因此任何一家公司的任何一位工程师都能使用它。 计算机视觉平台 FBLearner Flow 平台启动后作为 Facebook AI Research 的一个小研究项目,当它达到能投入生产的规模时,该平台和团队转移到了 Applied Machine Learning 团队。它现在是 Facebook 计算机视觉团队的引擎。 建立在 FBLearner Flow 之上的 Lumos,是我们为图像和视频理解打造的平台。Facebook 的工程师们无需为使用 Lumos 训练或布置一个新模型而去参加深度学习或计算机视觉的训练。通过我们给它的新的标签数据,以及从我们团队自己建立的应用中来的经过注释的数据,Lumos 平台一直在改善。 深度学习的进展已经让我们在图像分类上做出了巨大的提升——像「图像中是什么」和「物体在哪里?」这样的问题,系统的回答已经比以前精确很多了。我们设计出了能检测并分割给定图像中对象的技术,推进了这个方向上的研究。 当这些技术被应用到 Facebook 中时,照片就可以通过一个能分割图像并识别其中物体和场景的深度学习引擎,并给这张照片附上更多的意义。这就为我们提供了一个丰富的数据集,Facebook 的任何产品或服务都可以使用。数十个团队已经在 Lumos 上训练和部署了 200 多个视觉模型,他们的目的包括检测敏感内容,过滤垃圾邮件以及自动图像描述。它的应用的范围广泛,从我们的 Connectivity Labs 到搜索团队到 Accessibility 团队都在使用。 用语言描述一切 我们目前正在将这个图像理解成果应用到为照片提升自动转换文本(automatic alt text,AAT),一种能为视觉受损的人描述照片内容的技术。直到最近,这些描述还智描述照片中的物体。今天我们宣布,我们添加了一组 12 个动作,所以图像描述将会包括「人在行走」、「人在跳舞」、「人在骑马」、「人在玩乐器」等这样的描述。 AAT 的这次更新包括两个部分,使用 Lumos 能够实现快速、可升级的迭代。Facebook 上有相当比例的共享照片都包含了人物,因此,我们专注于提供涉及人物的自动描述。该人工智能团队收集了一个 130,000 张分享在 Facebook 上涉及人物的公开照片样本集。人类注释者被要求写一个照片的单行描述,假定为一个视力受损的朋友描述照片。然后,我们利用这些注释建立一个机器学习模型,可以无缝地推断照片中人的行动。该模型被用于 AAT 的下游技术。 http://img.mp.itc.cn/upload/20170203/983454003fbc4f2ca6b3cf81cdf12da6_th.jpeg Facebook 对于「骑马」概念各图像的评分 Lumos 通过使用一个界面利用之前另一个任务中经过训练的模型中带有标签的样例,允许在该任务上快速迭代。例如:如果我们正在训练一个「人骑在一匹马上」的分类器,并想要添加包含马(没人骑的马)的图像的样例,我们就能从一个模型中使用一部分有标签的例子来判断一张图片是包含一匹马并对其分类。 http://img.mp.itc.cn/upload/20170203/9d3825f764ad4168b3b689a3e0b27f19_th.jpeg 相似模型对同一张图的分数对比 Lumos 允许通过检索和聚类的组合来生成训练数据。给定一组标签或搜索项,该平台可以检索匹配这些标签的字幕的公共图像的分数。这些图像随后被语义聚类,以便快速进行标记。Lumos 用户可以选择注释集群作为其用例的正选或反选例子,在集群级别或单独为集群中的每个图像进行手动标记。这有助于开始一项分类任务,随后通过迭代训练以获得更高精度/回忆的分类器。 AAT 应用非常重要,因为它可以为 Facebook 的视障用户带来更棒的访问体验,其他应用也能为用户提供一些方便之处,如发现一个新的搜索参数。 更具描述性的照片搜索 通过 Lumos,我们可以为整个社交网络提供视觉搜索功能。假如你在回想自己的美好记忆,你很难指出具体的事件,更不用说拍摄的人了。而通过 Lumos,我们构建了一个全新的搜索系统,它可以利用图理解序大量信息,让你可以轻松地搜索到自己想要的东西。换句话说,如果你搜索「穿黑色衬衫的照片」,系统可以「看到」哪些照片中出现了黑色衬衫,并将相关搜索结果呈现在你的眼前,即使这些图片并没有贴上相应的标签。 Facebook 的自动图像分类器,就像 AAT 的例子中那样——通过图片的内容而不是标签来搜索你自己和朋友圈内的所有照片。 为了确保搜索结果与查询的内容有关,系统必须对照片的内容有很好的理解。因此,开发团队使用了最新的深度学习技术,在数十亿照片中学习特征以理解图片的内容。图片搜索团队主要使用了以下表示方法来让图片能有更好的排序结果: 对象识别:底层图像识别模型是一个深度神经网络,具有数百万可学习的参数。它构建在最先进的深度残差网络之上,使用了数千万张带有标记的图片进行了识别训练。它可以自动识别大量概念,包括场景(如花园)、物体(如汽车)、动物(如企鹅)、地区和经典(如金门大桥),也包括衣物(如围巾)。 图嵌入:系统同时生成高级语义特征,这是深度神经网络最后几层输出的量化版本。这些信息对于提升搜索结果准确性非常有用。 http://img.mp.itc.cn/upload/20170203/ff621c08d0344baeb934758535fa7285_th.jpeg 原始语义特征是高维浮动向量,它使用了大量的存储空间用于索引——尤其是当我们要索引大量照片时。通过利用量化技术,特征被进一步压缩成数个字节,同时仍保留绝大多数语义。被压缩的表征被用作照片的紧凑嵌入,并且可以直接用于排序,检索和删除重复内容等任务。 构建这种方式的办法是从图像中提取预测的概念和类别,然后解析搜索查询以链接实体并提取概念,最后使用两组概念之间的相似性函数来确定相关性。 这是一个好的开始,但开发团队并没有停止使用预测的图像类别:我们更进一步,使用联合嵌入对图像进行查询,显著提高了搜索和回忆精度。 http://img.mp.itc.cn/upload/20170203/133fbfcfe55240c29def2f2f147f537d.jpeg 我们把它作为一个多模态学习的排序问题。此外,我们还使用图像之间的相似性度量来确保图像搜索结果是多样化的。 展望下一步 Lumos 图像分类器的应用还需要大量团队通力协作。虽然目前的发展值得肯定,但我们仅仅触及了自动计算机视觉的表面,后面还有更长的路要走。随着计算机视觉模型越来越精细,Facebook 正在不断研究如何处理视频及其他能让人身临其境的表现形式,Lumos 将帮助我们以稳定、快速、可扩展的方式揭开所有这些可能性,它会为将来更为丰富的产品体验铺平道路。 原文链接:https://code.facebook.com/posts/1259786714075766/building-scalable-systems-to-understand-content/ 本文为机器之心编译转载请联系本公众号获得授权。 ------------------------------------------------ 加入机器之心(全职记者/实习生):hr@jiqizhixin.com 投稿或寻求报道:editor@jiqizhixin.com 广告&商务合作:bd@jiqizhixin.com 原文章作者:机器之心,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    2603 0
  • 智飞侠无人机倾斜摄影测绘方案昆明无人机图像识别鑫疆基业
    http://i1.go2yd.com/image.php?url=0ZzA5a0tK6 一、无人机倾斜摄影测绘方案 倾斜影像是指由一定倾斜角度的航摄相机所获取的影像。倾斜摄影技术是通过在同一飞行平台上搭载多台传感器,同时从垂直、倾斜等多种角度采集影像,获取地面物体更加完整准确的信息。 倾斜摄影相机系统可以搭载在无人机上,可以快速获取地物三维模型,是大型场景三维建模的重要选择之一。 倾斜摄影可以获取具有真实纹理的三维数据,适合做大范围城市三维建模、输电线路通道建模以及三维工程测量应用。 传统的测绘方式存在一些难以克服的缺点,比如难以测量一些隐蔽点,地标图根点难以长久保存,如果测绘精度要求高的话,工作量就会非常大。利用无人机搭载测绘相机进行测绘,会大幅提高测绘效率。 二、无人机倾斜摄影的优势 天气适应能力强 在天气不够晴朗的情况下也能拍出十分清晰的照片,搭配飞行平台,能够适应更多天气状况。 安全稳定 相机搭配无人机能够实现飞行过程中前视和下视双图传,相机状态信息在控制台实时展示。 免像控高精度 无人机倾斜摄影使得拍照质量和定位精度都得到极大提高,在不使用控制点的情况下也能构建高精度模型。 配套软件完善 从数据预处理到空三建模,再到数据采集,方案包含了整个项目流程。 三、无人机倾斜摄影测绘方案具体流程 测区预先勘探 利用谷歌地球等地图软件了解测区全区地形、环境、高压线、金属矿地磁干扰、树木遮挡、高建筑物等环境信息,避免无人机在飞行过程中出现飞机失锁、导航干扰、航时不够等问题,并提前确定起飞点。 数据预处理 管理航飞架次的功能,测绘人员在电脑上查看详细的航飞信息。对照片进行处理,适用于建模软件计算。 模型重建 拍摄的照片支持多种建模软件使用,利用一站式解决方案帮助用户提升内外业效率,提供自主航线规划、飞行航拍、二维正射影像和三维模型重建等。 数据采集 为地籍测图、交通电力、水利、安防等各行业提供数据支持。支持多种模型格式,具备批处理功能、一键自查功能,以确保采集过程中的数据质量和工作效率。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    3265 0
  • 学界 | 北邮夺冠CVPR 2018 DeepGlobe比赛,他们是这样做 ...
    http://5b0988e595225.cdn.sohucs.com/images/20180628/c41ad456f4834f609e876ce93cb741a0.jpeg 大数据文摘出品 在刚刚结束的CVPR2018: DeepGlobe Road Extraction Challenge(全球卫星图像道路提取)比赛中,北京邮电大学信息与通信工程学院模式识别实验室张闯老师指导的研究生周理琛同学,脱颖而出,取得第一名的好成绩。 本届CVPR规模浩大,有超过3309篇论文投稿,接收979篇论文。此次DeepGlobe道路检测比赛参加队伍众多,包括许多专业级的卫星公司和研究机构(其中,Road Extraction Challenge比赛的第2-4名都来自专业的地图和导航公司)。 获奖的北邮模式识别实验室和周理琛同学向大数据文摘独家解读了他们的夺冠方法论,还将带来一次公开分享,一起来学习吧! 扫描海报中的二维码,报名公开课,聆听来自冠军的获胜法宝~~~ http://5b0988e595225.cdn.sohucs.com/images/20180628/cddbe17579e844b6810d4a1fbc2bedab.jpeg 赛题和数据 基于卫星图像的道路检测在城市规划,自动驾驶,应急指挥等领域有很广泛的应用场景。此次比赛的任务是将卫星图像中的道路部分提取出来,即将每个属于道路部分的像素点标注为道路,其他部分标注为背景(属于一个二元分割的问题)。 比赛的数据由全球知名的卫星数据公司数字地球(DigitalGlobe)提供,由FACEBOOK, UBER, IEEE GRSS, DigitalGlobe, CrowdAI, OVSI, Kitware等公司赞助。 比赛分为三个子任务:卫星图像道路提取(84队参与)、房屋提取(26队参与)以及地表覆盖分类(38队参与)。参赛队伍包括MIT, CrowdAI, MapBox, Neuromation公司,EOS数据分析中心,清华大学、同济大学、哈工大、国立台湾大学、商汤科技等团队。 http://5b0988e595225.cdn.sohucs.com/images/20180628/377b26647cab4f44b774266bcb212e27.jpeg 数据集和道路检测示例 比赛数据集包含6226张训练图像,1243张验证图像,以及1101张测试图像。所有的图像尺寸均为1024*1024,图像来源于泰国、印度、印度尼西亚,图像场景包括城市、乡村、荒郊、海滨、热带雨林等多个场景。 从卫星图像中分割道路是一项十分具有挑战的任务,该任务可以应用于地图生成、汽车自动驾驶与导航等多个场景。同时,卫星图像道路分割相较于一般的分割任务,有其独特性和困难性,具体表现为:在卫星图像中,目标道路所占据画幅比例普遍偏小;河流、铁路等又与道路过于相似,甚至人眼也难以判别;道路分叉连通情况也很复杂,这对于道路提取的识别精度有着相当高的要求。 另外,在卫星图像中,道路往往狭窄、且具有先验的连通性,几条道路可能会互相交叉连通,且整体跨度覆盖整张图片,传统的图像分割方法很难适用。这都给卫星图像中的道路检测带来了难度。 夺冠方法详解 数据扩增-图像形态变换: ①、随机翻折:包含水平、竖直、对角线三种翻折方式,每张图片扩增为原来的8倍。 ②、随机缩放:将图像随机缩放至多10%。 ③、随机偏移:将图像随机上下左右偏移至多10%。 ④、随机拉升:将图像随机沿竖直方向或水平方向拉升至多10%。 经过以上四种变换之后,再截取图像中心1024*1024的部分,不足的部分补0。 数据扩增-图像色彩变换: 使用OpenCV,在HSV空间对图像进行色彩变换。在OpenCV中,每个像素的HSV保存在uint8的数据类型中(0~255)。 ①、H空间,随机变换(-15~15)。 ②、S空间,随机变换(-15~15)。 ③、V空间,随机变换(-30~30)。 http://5b0988e595225.cdn.sohucs.com/images/20180628/484b90461af7403a9da0327ed938e6f4.jpeg 数据扩增示意图:中心处为原图 模型结构D-LinkNet 北京邮电大学模式识别实验室提出了融合的D-LinkNet方法,该方法在提升网络识别精度的同时,增加网络接收域,保留图像的空间细节信息,并实现多尺度特征融合,有效提升了识别精度、缓解道路连通性问题。 模型总体结构如下: http://5b0988e595225.cdn.sohucs.com/images/20180628/ca00369b2d2b4ea08c5fa08770cafb23.jpeg D-LinkNet34示意图 D-LinkNet使用LinkNet作为基本骨架,使用在ImageNet数据集上与训练好的ResNet作为网络的encoder,并在中心部分添加带有shortcut的dilated-convolution层,使得整个网络识别能力更强、接收域更大、融合多尺度信息。 网络的中心部分可以展开如下图,图中所示的并联结构可以有效的融合多尺度特征。Dilated-convolution可以有效扩张接收域,从上到下对应的接收域分别是31、15、7、3、1,最后将每条支路的结果相加,便得到融合的特征。 http://5b0988e595225.cdn.sohucs.com/images/20180628/5fb7faae4b3c46af8b4f639bfcd0dd0a.jpeg 网络中心部分展开示意图 损失函数/测试时扩增(TTA) 损失函数的公式如下所示。损失函数包含两部分,其中红框部分是dice coeff loss,绿框部分是Binary cross entropy loss。公式中P指代网络输出的预测结果,GT指代真实标签,N指代batchsize。 http://5b0988e595225.cdn.sohucs.com/images/20180628/fd3c3b8f52934915af28d0a0337eb863.png 损失函数 由于卫星图像具有翻折和旋转不变性,在测试时,我们将图像进行水平、竖直、对角线三种翻折,每张图片预测8次,然后将8次的结果平均。(我们没有旋转图片是出于预测时间的考虑) 比赛结果和技术分享 http://5b0988e595225.cdn.sohucs.com/images/20180628/27de503c070a4d53b9e0b4dae56a0e17.jpeg 测试集上最终结果 http://5b0988e595225.cdn.sohucs.com/images/20180628/6264468c1e39409a9fb565880114f775.jpeg 各项比赛任务优胜者排名表 论文链接: http://openaccess.thecvf.com/content_cvpr_2018_workshops/w4/html/Zhou_D-LinkNet_LinkNet_With_CVPR_2018_paper.html 代码及PPT: https://github.com/zlkanata/DeepGlobe-Road-Extraction-Challenge 北京邮电大学模式识别实验室介绍 北京邮电大学模式识别实验室由郭军教授(日本东北学院大学博士、博士生导师、北京邮电大学副校长)于1998年依托信号与信息处理国家重点学科以及模式识别与智能系统信息产业部重点学科而创建,是国内较早开展人工智能领域研究的著名实验室之一,也是信息内容安全技术国家工程实验室的组成部分。 实验室长期从事模式识别、机器学习、数据挖掘、网络搜索等方面的研究,在国际顶级期刊及会议TPAMI、PR、PRL、SCIENCE、 TIP、TIFS、CVPR、ECCV、SIGIR上发表论文多篇,参加人工智能领域国际评测NIST-TREC评测、AI CHALLENGER、阿里天池大数据比赛、863评测等也多次获得优异成绩。实验室的马占宇、高升、郭军、徐雅静、蔺志青老师获得2017年吴文俊人工智能科技进步一等奖。 有心的同学可能也注意到了,由大数据文摘字幕组推出的三门火爆的网红课程就是和北邮模式识别实验室合作进行的。 感兴趣的同学通过以下链接就可以进行学习啦~~~ 牛津大学xDeepMind 自然语言处理 https://study.163.com/course/introduction/1004336028.htm MIT6.S094深度学习与自动驾驶 https://study.163com/course/introduction/1004938039.htm 斯坦福李飞飞-深度学习计算机视觉 https://study.163.com/course/introduction/1003223001.htm 欢迎报考北邮模式识别实验室硕士博士研究生~ 原文章作者:大数据文摘,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    1926 0
  • 智飞侠摄影测量解决方案昆明无人机图像识别鑫疆基业
    http://i1.go2yd.com/image.php?url=0ZxMMs0xX9 简要概述无人机测绘的优点有哪些 1、快速 高效,灵活机动,常可作 为其他测绘方式的补充手段。 2、成本低廉 ,具有更加广泛 的普适性。 3、可视化强,测图结果更加直观。 4、发展前景好,有很多值得去挖掘的方向。 无人机测量相对于人工测量优势 无人机测绘效率高,人工外业工 作量小,特别是在搭载差分的情 况下,仅需少量像控点即可保证 测图精度。 工期受地形因素影响小,特别适 合困难地区测图。 成果更加丰富,除地形图外,还 能生产高清正射影像和三维模型 等成果。 无人机测绘相对于大飞机测绘优势 节约成本:相对于载人飞机来 说,无人机更加小型化与便携 化,大大降低了各种维护费用 以及人员培训费用。 效率更高:无人机作业是在计算机上利用控制器布设好作业 路线,起飞后接受飞控系统之 令就可以完成飞行作业,无需 驾驶员控制。 完成难度更高的作业:利用航 空测绘可以对一些地面人员难 以涉足的恶劣地域进行无障碍 测绘,风险更加可控。 无人机在测绘中的应用 无人机在测绘中具有非 常重要的作用,可以机载遥感设备,如高分辨率CCD数码相机、轻型光学相机、红外扫描仪,激光扫描仪、磁测仪等获取信息,用计算机对图像信息进行处理,并按照一定精度要求制作成图像。为适应城镇发展的总体需求,提供综合地理、资源信息。正确、完整的信息资料是科学决策的基础。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    2072 0
  • 图像识别模型训练方法及系统和图像识别方法
    图像识别模型训练方法及系统和图像识别方法 技术领域 本发明实施例涉及计算机技术领域,尤其涉及图像识别模型训练方法及系统和图像识别方法。 背景技术 在图像识别领域,实际生产设备中图像使用的颜色空间根据其设备优势各有不同,比如视频传输设备为了节省带宽使用的YUV格式,对应的图像识别模型为YUV图像识别模型,或者带有红外探头的RGB+IR格式,对应的图像识别模型为RGB图像识别模型,RGB图像识别模型无法对YUV格式的图像进行识别,需要重新搭建一个YUV图像识别模型,再用YUV数据格式的训练数据对YUV图像识别模型进行训练,为提升YUV图像识别模型的准确度,需要对大量的训练数据进行人工标注,成本较高。 为了降低深度学习模型应用的门槛,利用知识蒸馏的方法将高计算能力、高精度的模型包含的先验知识用于教授小模型的深度学习网络,可以实现对网络模型的压缩提速。然而,传统的知识蒸馏方法只是为了缩小网络规模和计算需求,但是依旧局限在同样形式的训练数据上,例如RGB图像识别模型只能蒸馏得到结构更小的RGB图像识别模型,得不到YUV模型,给模型蒸馏带来了应用上的限制。 发明内容 有鉴于此,本发明实施例提供了一种图像识别模型训练方法、系统、计算机设备及计算机可读存储介质和图像识别方法,用于解决构建新的图像识别模型步骤繁琐且成本高的问题。 本发明实施例是通过下述技术方案来解决上述技术问题: 一种图像识别模型训练方法,包括: 创建基于RGB数据格式的图像识别的训练集和验证集; 利用所述训练集和所述验证集训练RGB图像识别模型,所述RGB图像识别模型用于训练YUV图像识别模型; 搭建待训练YUV图像识别模型,所述待训练YUV图像识别模型包括输入层,预测层和输出层,所述输入层包括亮度输入分支和色度输入分支; 利用训练好的所述RGB图像识别模型使用蒸馏方法训练所述待训练YUV图像识别模型的亮度输入分支、色度输入分支和预测层,得到YUV图像识别模型,所述YUV图像识别模型用于识别YUV数据格式的图像。 进一步地,所述利用训练好的RGB图像识别模型使用蒸馏方法训练所述待训练YUV图像识别模型的亮度输入分支、色度输入分支和预测层,得到YUV图像识别模型,所述YUV图像识别模型用于识别YUV数据格式的图像包括: 根据训练好的RGB图像识别模型,获取所述待训练YUV图像识别模型的整体目标损失函数; 通过所述整体目标损失函数对所述待训练YUV图像识别模型的输入层和预测层进行训练,得到所述YUV图像识别模型。 进一步地,所述根据训练好的RGB图像识别模型,获取所述待训练YUV图像识别模型的整体目标损失函数包括: 获取所述RGB图像识别模型的软目标; 根据所述RGB图像识别模型的软目标,获取所述待训练YUV图像识别模型的整体目标损失函数。 进一步地,所述通过所述整体目标损失函数对所述待训练YUV图像识别模型的输入层和预测层进行训练,得到所述YUV图像识别模型包括: 最小化所述整体目标损失函数,以得到所述YUV图像识别模型,所述整体目标损失函数通过学习率调整。 进一步地,所述最小化所述整体目标损失函数,以得到所述YUV图像识别模型,所述整体目标损失函数通过学习率调整包括: 调整所述亮度输入分支、所述色度输入分支与所述预测层的学习率为第一学习率,进行初步训练; 调整所述亮度输入分支、所述色度输入分支与所述预测层的学习率为第二学习率,进行精细训练; 调整所述亮度输入分支、所述色度输入分支与所述预测层的学习率为第三学习率,得到所述YUV图像识别模型。 一种图像识别模型训练系统,其特征在于,包括: 训练集和验证集创建模块,用于创建基于RGB数据格式的图像识别的训练集和验证集; RGB图像识别模型训练模块,用于利用所述训练集和所述验证集训练RGB图像识别模型,所述RGB图像识别模型用于训练YUV图像识别模型; 待训练YUV图像识别模型构建模块,用于构建待训练YUV图像识别模型,所述待训练YUV图像识别模型包括输入层,预测层和输出层,所述输入层包括亮度输入分支和色度输入分支; YUV图像识别模型训练模块,用于利用训练好的RGB图像识别模型使用蒸馏方法训练所述待训练YUV图像识别模型的亮度输入分支、色度输入分支和预测层,得到YUV图像识别模型,所述YUV图像识别模型用于识别YUV数据格式的图像。 为了实现上述目的,本发明实施例还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述图像识别模型训练方法的步骤。 为了实现上述目的,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的图像识别模型训练方法的步骤。 本发明还提供一种图像识别方法,包括以下步骤: 获取YUV数据格式的待识别图像; 将所述YUV数据格式的待识别图像输入YUV图像识别模型,其中,所述YUV图像识别模型通过所述图像识别模型训练方法训练得到; 通过所述YUV图像识别模型输出所述YUV数据格式的待识别图像的识别结果。 进一步地,所述通过所述YUV图像识别模型输出所述YUV数据格式的待识别图像的识别结果包括: 接收所述YUV数据格式的待识别图像; 通过所述YUV图像识别模型的输入层对所述YUV数据格式的待识别图像的色度特征和亮度特征进行提取,经过识别后将图像识别结果通过所述YUV图像识别模型的输出层输出。 本发明提供的图像识别模型训练方法、系统、计算机设备及计算机可读存储介质和图像识别方法,通过RGB图像识别模型蒸馏训练YUV图像识别模型的输入层和预测层,提高了YUV图像识别模型的训练效率,降低了YUV图像识别模型的训练成本。 以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。 附图说明 图1为本发明实施例一之图像识别模型训练方法的步骤流程图; 图2为本发明实施例RGB图像识别模型输入层结构示意图; 图3为本发明实施例利用训练好的RGB图像识别模型使用蒸馏方法训练所述待训练YUV图像识别模型的亮度输入分支、色度输入分支和预测层,得到YUV图像识别模型,所述YUV图像识别模型用于识别YUV数据格式的图像的步骤流程图; 图4为本发明实施例根据训练好的RGB图像识别模型,获取所述待训练YUV图像识别模型的整体目标损失函数的步骤流程图; 图5为本发明实施例最小化所述整体目标损失函数,以得到所述YUV图像识别模型,所述整体目标损失函数通过学习率调整的步骤流程图; 图6为本发明图像识别模型训练系统之实施例二的程序模块示意图; 图7为本发明图像识别模型训练系统计算机设备之实施例三的硬件结构示意图; 图8为本发明实施例图像识别方法的步骤流程图; 图9为本发明实施例通过所述YUV图像识别模型输出所述YUV数据格式的待识别图像的识别结果的步骤流程图。 具体实施方式 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。 实施例一 请参阅图1,示出了本发明实施例之图像识别模型训练方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述,具体如下: 如图1所示,一种图像识别模型训练方法,包括: S100:创建基于RGB数据格式的图像识别的训练集和验证集; 具体的,在本实施例中,创建基于RGB数据格式的图像识别的训练集和验证集是指已经进行人工标注的RGB数据格式的图像,其中训练集用于训练RGB图像识别模型,验证集用于验证训练好的RGB图像识别模型的识别准确率。 S200:利用所述训练集和所述验证集训练RGB图像识别模型,所述RGB图像识别模型用于训练YUV图像识别模型; 所述RGB图像识别模型的网络结构可分为输入层与预测层,如图2所示:其中输入层为预训练分类模型ResNet50,特征提取层有5组卷积块,第一组conv1(第一向量卷积运算),卷积核为7x7,通道数为64,2倍降采样;第二组conv2(第二向量卷积运算),包含1层3x3的最大池化层以及3组残差模块,通道数扩大4倍;以此类推,每一组向量卷积运算都进行2倍降采样,通道数扩大2倍。 预测层是利用提取的图片特征进行标签预测,对于C类目标分类任务,预测层由C个通道的1x1卷积层和平均池化层组成。 S300:搭建待训练YUV图像识别模型,所述待训练YUV图像识别模型包括输入层,预测层和输出层,所述输入层包括亮度输入分支和色度输入分支。 其中,其中输入层用于提取待识别图片的图片特征,所述输入层包括亮度输入分支和色度输入分支,用于提取YUV图像的亮度特征和色度特征。预测层是利用提取的亮度特征和色度特征进行标签预测,以图像分类案例说明:图像识别模型的识别目标是将多个类别的图片准确分类。具体的,待识别图像中有N张图片,属于猫、狗、车、树木等C个类别;对于待识别图像中的任意一张图片,已知的正确标签为,其中yi(i≠c)=0,yc=1,c为该图片所属类别。输出层是用于输出图像的分类类别。 S400:利用训练好的所述RGB图像识别模型使用蒸馏方法训练所述待训练YUV图像识别模型的亮度输入分支、色度输入分支和预测层,得到YUV图像识别模型,所述YUV图像识别模型用于识别YUV数据格式的图像。 蒸馏指的是将训练好的复杂模型中的预测能力迁移到一个结构更为简单的模型中,从而达到模型压缩的目的。复杂模型为被蒸馏模型,简单模型为蒸馏模型,在本实施例中,是将RGB图像识别模型的图像识别能力迁移到YUV图像识别模型上,其中,被蒸馏模型性能优良、准确率高,但是相对于蒸馏模型,被蒸馏模型的结构复杂、参数权重多、计算速度较慢。蒸馏模型是计算速度较快、适合部署到对实时性要求较高的单个神经网络,蒸馏模型相比于被蒸馏模型,具有更大的运算吞吐量、更简单的网络结构和更少的模型参数。 具体的,在本实施例中,所述RGB图像识别模型作为被蒸馏模型,其优势在于可以利用大的公开预训练网络和数量可观的RGB训练数据,得到精度较高的模型参数。 在一实施方式中,如图3所示,步骤S400进一步包括: S401:根据训练好的RGB图像识别模型,获取所述待训练YUV图像识别模型的整体目标损失函数; 具体的,对于一张待分类图像,RGB图像识别模型预测出C个类别,类别c的目标损失函数为 则所述RGB图像识别模型的整体目标损失方程为 其中,yc是指RGB图像识别模型预测出的值,c是指RGB图像识别模型预测出的C个类别,记为,LChard是指不加入温度参数T时,类别C的目标损失函数,Lhard是不加入温度参数T时,RGB图像识别模型的整体目标函数。 具体的,可以通过大量已知标签训练集的RGB图像学得使Lhard,即RGB图像识别模型损失函数值最小的模型参数,使所述RGB图像识别模型识别误差最小。 在一实施方式中,如图4所示,步骤S401进一步包括: S4011:获取所述RGB图像识别模型的软目标; 具体的,软目标指的被蒸馏模型使用带有温度参数T的预测层损失函数的输出结果。通过加入温度参数T,错误分类再经过预测层后,错误输出会被放大,正确分类会被缩小,也就是说,通过加入温度参数T,人为的增加了训练难度,一旦将T重新设置为1,分类结果会非常接近RGB图像识别模型的分类结果。 软目标用公式表达为: 当T=1时,此时 此时得到所述RGB图像识别模型的硬目标,硬目标指的是将温度参数设为1,正常网络训练的目标。 其中,qc为软目标,c是指RGB图像识别模型预测出的C个类别,记为,T为温度参数。 S4012:根据所述RGB图像识别模型的软目标,获取所述待训练YUV图像识别模型的整体目标损失函数。 具体的,通过损失函数和得到YUV图像识别模型的第一目标损失函数为其中第一目标损失函数与软目标对应,是包含蒸馏学习的温度参数的函数。 其中,ysoft为RGB图像识别模型在温度T的条件下,预测出的值。 YUV图像识别模型的第二目标损失函数为 其中第二目标损失函数与硬目标对应,是不包含蒸馏学习的温度参数的损失函数。 具体的,所述蒸馏模型的整体目标损失函数为L=L1+L2, 因此,YUV图像识别模型的整体目标损失函数为: 其中,L1为第一目标损失函数,L2为第二目标损失函数,L为整体目标损失函数。 S402:通过所述整体目标损失函数对所述待训练YUV图像识别模型的输入层和预测层进行训练,得到所述YUV图像识别模型。 在一实施方式中,步骤S402进一步包括: S4021:最小化所述整体目标损失函数,以得到所述YUV图像识别模型,所述整体目标损失函数通过学习率调整。 具体的,深度学习模型包含大量的可学习参数,训练模型就是不断调整参数直到目标函数值最小的过程。学习率就是衡量调整参数的“步伐”的一个重要指标,即通过调整学习率是可以对模型的训练进度进行控制,具体的,学习率是对模型参数的变化情况进行控制,用公式表示为:更新后的参数=当前参数-学习率*损失函数的梯度。针对不同的模型,每一层的学习率,以及训练过程中每个阶段的学习率都有不同的选择策略。 在一实施方式中,如图5所示,步骤S4021进一步包括: S4021A:调整所述亮度输入分支、所述色度输入分支与所述预测层的学习率为第一学习率,进行初步训练; 在一实施方式中,调整亮度输入分支和预测层时,设置亮度输入分支和预测层的第一学习率为0.01,而此时色度输入分支不参与训练,第一学习率为0。 S4021B:调整所述亮度输入分支、所述色度输入分支与所述预测层的学习率为第二学习率,进行精细训练; 具体的,完成第一步训练后,YUV图像识别模型已经可以识别目标,只是由于缺少色度信息,识别精度较低,此时,加入色度输入分支补充模型能力。亮度输入分支的特征提取已经在第一步中完成,因此需要固定亮度输入分支,即将亮度输入分支的第二学习率设置为0。训练色度输入分支与预测分支时,色度输入分支的第二学习率设为0.01,而由于预测层已经经过学习,不是随机初始化的参数,需要减小“步伐”,因此将预测层的第二学习率设为0.001。此时经过第一步的训练,色度输入分支与预测层学习的是残差损失,可以快速收敛,降低了学习难度和训练时间。 S4021C:调整所述亮度输入分支、所述色度输入分支与所述预测层的学习率为第三学习率,得到所述YUV图像识别模型。 具体的,分布调参可以减小模型学习难度,但最后还是需要进行联合调整,得到整体最优解。将亮度输入分支、色度输入分支以及预测层的第三学习率都设为0.0005,小步伐地调整参数值,得到最佳模型参数,进而得到YUV图像识别模型。 本发明实施例提出了一种YUV图像识别模型构建方法,可以利用不同类型的数据格式进行迁移学习。相比于传统模型蒸馏,本发明针对输入数据格式的特性调整了模型的输入模块,增加了亮度分支与色度分支;同时,利用了RGB图像识别模型的高算力性能,通过加入“软目标”,学习不同类别之前分布差异;另外,调整了模型结构后,细化了YUV图像识别模型的训练过程,采用阶段式的训练步骤,先利用亮度分量完成预测目标,后利用色度分量学习残差部分,降低了迁移学习的难度,提升模型精度。本发明实施例还提供一种图像识别方法,可以直接用YUV图像识别模型对具有YUV的图像进行识别,不需要将YUV的图像转换为RGB的图像,再利用YUV图像识别模型识别,提高了YUV图像的识别效率。 实施例二 请继续参阅图6,示出了本发明图像识别模型训练系统的程序模块示意图。在本实施例中,图像识别模型训练系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述图像识别模型训练方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述图像识别模型训练系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能: 训练集和验证集创建模块200:用于创建基于RGB数据格式的图像识别的训练集和验证集; RGB图像识别模型训练模块202:用于利用所述训练集和所述验证集训练RGB图像识别模型,所述RGB图像识别模型用于训练YUV图像识别模型; 待训练YUV图像识别模型构建模块204:用于构建待训练YUV图像识别模型,所述待训练YUV图像识别模型包括输入层,预测层和输出层,所述输入层包括亮度输入分支和色度输入分支; YUV图像识别模型训练模块206:用于利用训练好的RGB图像识别模型使用蒸馏方法训练所述待训练YUV图像识别模型的亮度输入分支、色度输入分支和预测层,得到YUV图像识别模型,所述YUV图像识别模型用于识别YUV数据格式的图像。 进一步地,所述YUV数据格式图像训练模块206还用于: 根据训练好的RGB图像识别模型,获取所述待训练YUV图像识别模型的整体目标损失函数; 通过所述整体目标损失函数对所述待训练YUV图像识别模型的输入层和预测层进行训练,得到所述YUV图像识别模型。 进一步地,所述YUV数据格式图像训练模块206还用于: 获取所述RGB图像识别模型的软目标; 根据所述RGB图像识别模型的软目标,获取所述待训练YUV图像识别模型的整体目标损失函数。 进一步地,所述YUV数据格式图像训练模块206还用于: 最小化所述整体目标损失函数,以得到所述YUV图像识别模型,所述整体目标损失函数通过学习率调整。 进一步地,所述YUV数据格式图像训练模块206还用于: 调整所述亮度输入分支、所述色度输入分支与所述预测层的学习率为第一学习率,进行初步训练; 调整所述亮度输入分支、所述色度输入分支与所述预测层的学习率为第二学习率,进行精细训练; 调整所述亮度输入分支、所述色度输入分支与所述预测层的学习率为第三学习率,得到所述YUV图像识别模型。 实施例三 参阅图7,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图7所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及图像识别模型训练系统20。其中: 本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如上述实施例所述的图像识别模型训练系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。 处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行图像识别模型训练系统20,以实现上述实施例的图像识别模型训练方法。 所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。 需要指出的是,图7仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。 在本实施例中,存储于存储器21中的所述图像识别模型训练系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。 例如,图6示出了所述实现图像识别模型训练系统20实施例二的程序模块示意图,该实施例中,所述基于图像识别模型训练系统20可以被划分为训练集和验证集创建模块200、RGB图像识别模型训练模块202、待训练YUV图像识别模型构建模块204和YUV图像识别模型训练模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述图像识别模型训练系统20在所述计算机设备2中的执行过程。所述程序模块训练集和验证集创建模块200-YUV图像识别模型训练模块206的具体功能在上述实施例中已有详细描述,在此不再赘述。 实施例四 本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储图像识别模型训练系统20,被处理器执行时实现上述实施例的图像识别模型训练方法。 实施例五 参阅图8,示出了本发明实施例五之图像识别方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。 S110:获取YUV数据格式的待识别图像; S210:将所述YUV数据格式的待识别图像输入YUV图像识别模型; S310:通过所述YUV图像识别模型输出所述YUV数据格式的待识别图像的识别结果。 在一实施方式中,请参阅图9,步骤S310进一步包括: S311:接收所述YUV数据格式的待识别图像; S312:通过所述YUV图像识别模型的输入层对所述YUV数据格式的待识别图像的色度特征和亮度特征进行提取,经过识别后将图像识别结果通过所述YUV图像识别模型的输出层输出。 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。 原文章作者:北方的那些事,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    1438 1
  • 图像识别,让机器人“火眼金睛”
    图像识别、AI、无人驾驶、机器人等未来趋势技术,被一班年轻大学生“玩”出新高度。作为国际性的大学生机器人赛事,第十七届全国大学机器人大赛2018 RoboMaster机甲大赛日前圆满落幕,本届大赛共吸引了全世界近200支战队和近万名学生参加,经过近5个月激烈比赛,广州本地高校华南理工大学“华南虎”战队,凭借过硬的实力成为卫冕冠军。 http://5b0988e595225.cdn.sohucs.com/images/20180813/3ed3e799384442ba88e02c5628462d44.jpeg 每届机甲大赛的最大亮点就是体现高端制造业发展趋势,今年图像识别的应用成为决胜的重要因素之一。目前,图像识别是除语音识别外,人机交互的重要手段之一。苹果、微软、谷歌、英特尔、华为等企业都纷纷致力于让机器具备深度学习能力,让图形识别更智能,让计算机、机器人“看”世界。 《王者》的机器人现实版 参赛机器人均由团队亲手研发 今年的RoboMaster(以下简称RM)机甲大赛类似于手机游戏《王者荣耀》的模式,被称为《王者》的机器人版。一支团队分为英雄机器人、步兵机器人、工程机器人、空中机器人、哨兵机器人共5个角色,其中,步兵机器人有三个,其他角色机器人均有一个。对战双方通过机器人之间的协同工作、射击等进行对抗,最后“击毁”对方基地或基地血量高者胜利,而且每局限制在7分钟之内。 机甲大赛的科技含量在于参赛战队需要操作团队亲自研发的机器人,从一个细小的零件开始,焊接、装拼、核心主板装嵌、无人机改装、写程序、调试……到最后完成和操控一支机器人队伍。近日,全媒体记者来到位于华南理工大学五山校区的机器人实验室,里面放置着零件焊接的机器、无数的装配工具、排线、电路板等,还有用于写程序的电脑。 要制作如此高比赛级别的机器人,过程是漫长的,经历无数次反复制作与测试。例如步兵机器人顶端是一个云台,包含了子弹发射器,底部是四个轮子组成、能灵活转向的“车辆”。队员李佩佩表示,目前这款参加比赛的步兵机器人,不是团队做出来的“唯一”步兵机器人,“之前有机器人已经做出来了,因为只有做出实物,并且达到较为完整的程度,才能进行测试。虽然比如今这辆更加小巧和灵活,但由于车速以及稳定性没有后者快与良好,所以被放弃了”。一台步兵机器人从机械加工到电控“上电”,完成出来大概半个月时间。据介绍,制造出一台英雄机器人大概需要6位成员共同完成。整个战队中,工程与英雄机器人复杂性相对较高,其中,英雄机器人的难点在需要快速“取弹”,这是比赛决胜因素之一,“我们的优势就在于英雄机器人取弹快,一次性能取两个弹药箱,时间在2~3秒之间。”队员李佩佩说。 http://5b0988e595225.cdn.sohucs.com/images/20180813/55332fa61a384141a152dbcdb1c40179.jpeg 无人机机器人出击 卫冕“秘籍”: 视觉研发 帮助机器人自动瞄准更精确 尽管RM大赛每年的规则都有所更新,今年采用的技术和零件明年不能用,但是由于大赛有一项固定规则就是射击,因此打击、识别、发射等项目都是一众强队钻研的方向。 根据赛制,发射出的子弹必须打在对方机器人身上规定的裁判系统位置才算有效——让对方扣掉血量。射击技术的一个核心是机器人射击子弹的弹道要稳定与精准,RM官方对子弹的射速有上限规定,每个具备射击能力的机器人的子弹发射口都有一个测速的装置,假如检测到子弹超速就会扣掉血量。所以,参赛队伍都会尽量在限速的情况下做到高速。 视觉组成员杨泽霖对此解释道,比如RM官方的限速是25米/秒,团队就要做到每颗子弹的速度均是24~25米/秒,并且一颗子弹都不超过上限。另外,子弹不能卡住“枪管”,若是卡住了就全场都不能发弹了——这亦是众多队伍遇到的难题之一。杨泽霖介绍,今年的机器人采用了较多的气动结构,相比用电机而言,前者取弹速度更快,而且也加入了众多的自动辅助技术,例如使用相机自动对位,相比人工对位,前者更加稳定、准确和快速。据了解,上届赛事中仅有极个别队伍采用了自动瞄准技术,到了本届比赛,这一技术已成机器人的“标配”。据视觉组队员杨泽霖表示,团队机器人身上装载的摄像头能自动识别对方,自动跟随过去,这也是图形识别技术的应用。 http://5b0988e595225.cdn.sohucs.com/images/20180813/2462a235200148d78eb5a2faa283a76d.jpeg 机器人实验室内随处可见各种线路板和工具 机器人拥有“眼睛” 视觉测试需要反复多次调试 据了解,华工战队今年主要将图像识别运用到了各机器人的自动瞄准、步兵机器人激活大小能量机关、工程和英雄机器人自动取箱、补给机器人自动给子弹这4个方面,“今年所有机器人都加载视觉识别程序,例如补给站机器人就是自动识别并跟机器人对接进行补弹的”,视觉组队员解释,图像识别技术使机器人的速度和稳定性有很大提升。 然而,为机器人装上摄像头,写入自动图像识别程序后,让它能准确地识别图像并不简单。“因为实际环境与工业试验环境是两回事”,视觉组成员成斌告诉全媒体记者,团队有一个独立的视觉实验室进行机器人视觉测试,测试并非一两次就能完成,需要多次反复调试。因为实际场景的光照强度、光照方向、曝光时间和增益等,都会影响机器人的视觉“能力”。例如在赛场上复杂的光线或者突如其来的光照,都会给机器人战队的视觉系统带来困难。视觉组队员表示,他们需要做足够多的实验测试,模拟实际环境较为充分,“我们会模拟不同的光线情况,将众多的实际情况考虑进去”。 据了解,目前团队所研究的识别技术,优势在于延时低、转换回来的坐标较为精准,这让机器人打击的准确率很高。 http://5b0988e595225.cdn.sohucs.com/images/20180813/75c868ece27f49e482ddaf241ac8e7f5.jpeg 比赛时,队员争分夺秒调试机器人 让机器像人类一样观察和理解 未来:除了图像 还有视频识别 作为机器视觉系统的重要组成部分之一的图像处理应用,相当于人的大脑对系统获取的图像,做出正确判断。除了在摄像头中加入图形识别功能外,据了解,今年华工战队的机器人换上了麒麟970,这个人工智能移动计算平台最大的特点之一是AI场景识别,因为除了CPU外,更拥有具有独立神经处理单元(NPU),AI运算相比CPU处理能效提升50倍,性能提升25倍。据了解,从去年全球科技厂商苹果在iPhone X上使用了具备神经网络引擎的A11仿生处理器后,目前,众多科技厂商的高端处理器都带有了“深度学习”能力,并且集中“火力”在图像识别上。高通、英特尔、谷歌、英伟达等都专门开发针对图像识别的平台。 图像识别,被认为是人工智能科技领域中,除语音交互外,人机交互中的重要手段之一,例如目前消费者们经常在中高端手机产品上看到的人脸识别技术,就是图像识别功能之一。另外,目前众多智能终端拥有AI拍照功能、相册筛选等等,同样是图像识别发挥着重要的作用。 根据科技行业最新的消息称,日前,谷歌抛出了新的黑科技:视频内容识别。通过这一技术,能够识别视频当中的各种动物、物体、风景等内容,例如你要在视频当中搜索一只狗,搜索引擎很快就能为用户找出视频中包括狗的画面。业界解释,其中可以通过图像识别的原理来理解视频识别。实际上,国内有物联网团队亦致力于这一方面,正把图形识别、视频识别的研究用于在城市交通监测当中。 http://5b0988e595225.cdn.sohucs.com/images/20180813/f60d212db8314dcca1340c647adc99be.jpeg 记者观察 科技技术有应用场景,才得以深入发展以及发掘新的研究方向。“华南虎”战队的指导老师、来自华南理工大学机械与汽车工程学院讲师张东认为,只有通过动手实践,知识才能真正掌握,成为有价值有意义的知识。 作为国际性的机器人赛事,机甲大赛并非仅有刺激性与观赏性。纵观整个比赛的机器人竞技模式,除了不同角色的机器人本身拥有不同“含金量”的技术外,更重要的是团队合作、整体战术,以及考验不同角色机器人之间的协同。业内专家表示,多机器人的协同控制在学术圈是研究热点。今年3月在平昌冬奥会闭幕式的“北京八分钟”表演中,我国新松的24台人工智能机器人控制着“冰屏”与24名轮滑演员,配合地面投影不断变幻曼妙舞姿,当中讲求的就是多机协同、人机协同——如果有一台机器人稍有延迟或动作偏差,整个演出都会失败。 文:广州日报全媒体记者 文静 图:广州日报全媒体记者 苏俊杰 编辑:广州市科协信息中心 原文章作者:广州市科协,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-21
    3067 9
  • OCR技术简介
    1.1 什么是OCR OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。-摘自百度百科。 1.2 OCR技术的发展现状 在一些简单环境下OCR的准确度已经比较高了(比如电子文档),但是在一些复杂环境下的字符识别,在当今还没有人敢说自己能做的很好。现在大家都很少会把目光还放在如何对电子文档的文字识别该怎么进一步提高准确率了,因为他们把目光放在更有挑战性的领域。OCR传统方法在应对复杂图文场景的文字识别显得力不从心,越来越多人把精力都放在研究如何把文字在复杂场景读出来,并且读得准确作为研究课题,用学界术语来说,就是场景文本识别(文字检测+文字识别)。 https://p2.itc.cn/images01/20210415/02b8b374f30b49b1bfa6ce0319d59a50.jpeg 文本识别场景 1.3 OCR文字识别技术的应用领域和价值 证件识别、车牌识别智慧医疗pdf文档转换为Word拍照识别、截图识别、网络图片识别无人驾驶无纸化办公、稿件编辑校对物流分拣舆情监控文档检索字幕识别文献资料检索等 1.4 OCR文字识别分类 OCR文字识别主要可以分为:印刷体文字识别和手写体文字识别。 1.5 文字识别的一般流程 目前,OCR文字识别技术的手段多种多样,各个识别过程也是不尽相同,这里简要介绍文字识别方法的一般流程。 识别出文字区域(通过滑动窗口算法,遍历整个图片,有监督的标记训练样本特征进行判断,找到目标图片进行矩形化摘取出来)对文字区域矩形分割,拆分成不同的字符(在矩形中做一维滑动窗口移动,判断字符间间距,对字符进行划分)字符分类(对划分好的字符根据监督算法,对字符进行预测)识别出文字(最终识别出整个字符)后处理识别矫正,对识别出的文字进行后续处理和校正。比如,考虑单词Because,我们设计的识别模型把它识别为8ecause,那么我们就可以用语法检测器去纠正这种拼写错误,并用B代替8并完成识别矫正。这样子,整个OCR流程就走完了。下面就具体谈谈印刷体文字识别和手写体文字识别的方法。 二 印刷体文字识别 OCR技术的兴起便是从印刷体识别开始的,印刷体识别的成功为后来手写体的发展奠定了坚实的基础。印刷体识别的主要流程大致分为以下几个部分:图像预处理;版面处理;图像切分;特征提取及模型训练;识别后处理。 2.1 图像预处理 由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,图像平滑,规范化等等。 2.1.1 灰度化 通过外设采集的图像通常为彩色图像,彩色图像会夹杂一些干扰信息,灰度化处理的主要目的就是滤除这些信息,灰度化的实质其实就是将原本由三维描述的像素点,映射为一维描述的像素点。转换的方式、工具和规则有很多,在这里不详细介绍。 2.1.2 二值化 经过灰度处理的彩色图像还需经过二值化处理将文字与背景进一步分离开,所谓二值化,就是将灰度值(或者彩色值)图像信号转化成只有黑(l)和白(0)的二值图像信号。二值化效果的好坏,会直接影响灰度文本图像的识别率。二值化方法大致可以分为局部阈值二值化和整体阈值二值化。 2.1.3 倾斜检测与校正 印刷体文本资料大多是由平行于页面边缘的水平(或者垂直)的文本行(或者列)组成的,即倾斜角度为零度。然而在文本页面扫描过程中,不论是手工扫描还是机器扫描,都不可避免地会出现图像倾斜现象。而倾斜的文档图像对后期的字符分割、识别和图像压缩等工作将产生很大影响。为了保证后续处理的正确性,对文本图像进行倾斜检测和校正是十分必要的。 文本图像的倾斜校正分为手动校正和自动校正两种。 手动校正,是指识别系统提供某种人机交互手段,实现文本图像的倾斜校正。 自动校正,是指由计算机自动分析文本图像的版面特征,估计图像的倾斜角度,并根据倾斜角度对文本图像进行校正。 目前,文本图像的倾斜检测方法有许多种,主要可以划分为以下五类:基于投影图的方法,基于Houhg变换的方法,基于交叉相关性的方法,基于Fourier变换的方法和基于最近邻聚类方法。 最简单的基于投影图的方法是将文本图像沿不同方向进行投影。当投影方向和文字行方向一致时,文字行在投影图上的峰值最大,并且投影图存在明显的峰谷,此时的投影方向就是倾斜角度。基于Houhg变换的方法也是一种最常用的倾斜检测方法,它是利用Hough变换的特性,将图像中的前景像素映射到极坐标空间,通过统计极坐标空间各点的累加值得到文档图像的倾斜角度。基于Fourier变换的方法是利用页面倾角对应于使Fourier空间密度最大的方向角的特性,将文档图像的所有像素点进行Fourier变换。这种方法的计算量非常大,目前很少采用。基于最近邻聚类方法,取文本图像的某个子区域中字符连通域的中心点作为特征点,利用基线上的点的连续性,计算出对应的文本行的方向角,从而得到整个页面的倾斜角。 2.1.4 图像平滑 文本图像经过平滑处理之后,能够去掉笔划上的孤立白点和笔划外部的孤立黑点,以及笔划边缘的凹凸点,使得笔划边缘变得平滑。一种简单的平滑处理方法如下。采用NxN窗口(N一般为3,如图2-1所示是一个3X3窗口),依次在二值文字点阵中进行扫描,根据窗口中黑白像素的分布情况,使处于窗口中心的被平滑像素X。,从“0”变成“1”或者从“l”变成“0”。 该方法是按以下规则对文字轮廓边缘进行平滑的。 规则1如果满足图2-2中(a),(b),(c),(d)四种情况中的任何一种,则中心点应该由“0”变成“l”。 规则2如果满足图2-2中(e),(f),(g),(h)四种情况中的任何一种,则中心点应该由“1”变成“0”。 https://p1.itc.cn/images01/20210415/6168adc7667944f39e5bf9e62e069130.jpeg 图像平滑 2.1.5 规范化 规范化操作就是将输入的任意尺寸的文字都处理成统一尺寸的标准文字,以便与己经预先存储在字典中的参考模板相匹配。规范化操作包括1211:位置规范化、大小规范化以及笔划粗细规范化。在这里只讨论位置规范化和大小规范化。 为了消除文字点阵位置上的偏差,需要把整个文字点阵图移动到规定的位置上,这个过程被称为位置规范化。常用的位置规范化操作有两种,一种是基于质心的位置规范化,另一种是基于文字外边框的位置规范化。基于文字外边框的位置规范化需要首先计算文字的外边框,并找出中心,然后把文字中心移动到指定的位置上来。基于质心的位置规范化方法抗干扰能力比基于文字外边框的位置规范化方法要强。 使用基于文字外边框的位置规范化方法对文字进行位置规范化的操作结果,如下图所示。 https://p8.itc.cn/images01/20210415/2e58076a7ffa4eb29b5e2c3d2950e2a6.jpeg 基于文字外边框的位置规范化 对不同大小的文字做变换,使之成为同一尺寸大小,这个过程被称为大小规范化。很多已有的多字号印刷体识别系统都是通过大小规范化来识别不同字号的文字。常用的大小规范化操作也有两种,一种是将文字的外边框按比例线性放大或缩小成规定尺寸的文字,另一种是根据水平和垂直两个方向上文字黑像素的分布情况进行大小规范化。 使用根据水平和垂直两个方向上文字黑像素的分布情况方法对文字进行大小规范化操作的效果,如下图所示。 https://p5.itc.cn/images01/20210415/fe3e21f4b612451fba1a4d12a3059349.jpeg OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的… 原文章作者:南陌,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-20
    2386 0
  • OCR文字扫描是如何实现的?这几款最易用的OCR工具你用 ...
    https://p9.itc.cn/images01/20211022/5fbfcfbe1f124c8087a493b8c9d7ba7e.jpeg 随着图片时代的深度发展,大量的文字内容为了优化排版和表现效果,都采用了图片的形式发布和存储,这为内容的传播和安全性带来了很大的便利,但对于内容编辑者来说,却造成了一些不便——需要重复性劳动。 https://p6.itc.cn/images01/20211022/a7008bf2262c4ac88bedc0d36ee74a62.jpeg OCR文字扫描工具逐渐走进广大内容制作者的视野,帮助用户解决了内容编辑的难题。 OCR全称是Optical Character Recognition,意思是“光学字符识别技术”,是最为常见的、也是目前最高效的文字扫描技术,它可以从图片或者PDF中识别和提取其中的文字内容,输出文本文档,方便验证用户信息,或者直接进行内容编辑。 那么OCR技术是如何实现文字识别的呢?从图片到文字的过程发生了什么? https://p5.itc.cn/images01/20211022/501ef7b6b51041a1a48acdd777ea0f6d.jpeg 典型的OCR技术路线分为5个大的步骤,分别是输入、图像与处理、文字检测、文本识别,及输出。每个过程都需要算法的深度配合,因此从技术底层来讲,从图片到文字输出,要经历以下的过程: 图像输入:读取不同图像格式文件;图像预处理:主要包括图像二值化,噪声去除,倾斜校正等; 3、版面分析:将文档图片分段落,分行; 4、字符切割:处理因字符粘连、断笔造成字符难以简单切割的问题; 5、字符特征提取:对字符图像提取多维特征; 6、字符识别:将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符; 7、版面恢复:识别原文档的排版,按原排版格式将识别结果输出到文本文档; 8、后处理校正: 根据特定的语言上下文的关系,对识别结果进行校正。 走完了全部的8个流程,输出后的文档才能尽可能地避免错别字和语义上的错误,方便用户直接使用。 https://p7.itc.cn/images01/20211022/6efdd6c58b8844d9ac5229828cc72e00.jpeg 由于汉字的构型中有很多重复的偏旁部首,以及很多字形相似的字体,比如“已”和“己”这样的汉字,所以识别汉字的难度比识别英文字母高出很多。为了提高这个过程的识别准确率,我们熟知的大公司如百度和腾讯,还专门为此进行过AI训练,以优化特征库的丰富度、准确度以及算法的匹配效率,借助机器学习和AI,OCR工具的识别准确率直线上升,极少出现错误。 https://p8.itc.cn/images01/20211022/d0dc0317c9804451b2ce1fe3c968dedf.jpeg 不过借助AI,就意味着过程中需要连接网络与云特征库进行匹配,因此会有一定的隐私和数据风险,这也是基于AI的OCR识别工具的唯一劣势。 OCR技术的成熟,使得图文时代的内容编辑更加轻松,对于经常和文字图片打交道的职场人士来说,基于OCR技术的文字识别和提取工具是必不可少的办公神器,除了专门的文档管理工具如Document和CS全能扫王,不少我们熟悉的APP都内置了文字识别工具,比如微信和为微云。 那么在我们日常的办公场景中,哪些OCR识别工具离我们最近,使用最方便呢? 微信 微信7.0版本之后便内置了文字提取工具,点击聊天中的图片,再长按呼出菜单,选择下方的“文字提取”,经过云处理后,就可以提取出其中的文字内容,使用方法还是非常简单的。 https://p4.itc.cn/images01/20211022/59151673c9a04a07868396e75426f093.jpeg 遗憾的是,微信电脑版并不具备这一功能,无法和Word直接打通,不然的话,效率超级加倍! QQ截图 电脑版QQ自带的截图工具功能非常丰富,是很多人都习惯使用的截图方式,默认呼出快捷键为“Ctr+Alt+A”,和微信的“Alt+A”截图工具,在用户习惯程度上不相上下。 https://p9.itc.cn/images01/20211022/c8d8ed858c9445bf8c0a934e48fc2f4a.jpeg QQ截图识别出来的文字,在回车符上可能会有部分不准确的情况,直接粘贴会丢失格式,以及使用过程中必须登陆QQ,因此不是非常完美。 不过考虑到PC端的文字编辑流程,使用鼠标点击就能完成文字识别,依旧是非常高效的。 3、印象笔记 印象笔记是大家熟悉的老牌笔记软件了,印象笔记从很早就开始支持OCR文稿扫描功能,并且功能较为完善,可以一次扫描多张稿件,适合用来做大批量文字资料的录入。 https://p3.itc.cn/images01/20211022/94effcf0d7104241ad44a9dd11e516d9.jpeg 这些方便又好用的文字识别工具你掌握了吗?据传即将到来的新版Edge浏览器,也将内置OCR识别工具,支持从网页中的图片上提取文字,大家可以期待一下! 原文章作者:ZEALER,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
    发表于2021-12-20
    2694 0

快速发帖

还可输入 80 个字符
您需要登录后才可以发帖 登录 | 立即注册

本版积分规则

在本IOT圈子中寻找帖子
IOT圈子地址
[复制]
Weiot(威腾网)是一家以原创内容、高端活动与全产业渠道为核心的垂直类物联网产业媒体。我们关注新兴创新的物联网领域,提供有价值的报道和服务,连接物联网创业者和各种渠道资源,助力物联网产业化升级。
15201069869
关注我们
  • 访问移动手机版
  • 官方微信公众号

© 2014-2020 Weiot.NETEPICGame 威腾网 北京微物联信息技术有限公司 ( 京ICP备20000381号-1 )