抗疫一线女军医日记这是我们的战场

抗疫一线女军医日记:这是我们的战场

地点:武汉泰康同济医院

通过对现有算法模型的细节调整,将成熟的文本识别模型集成化,即可实现工业场景中的OCR识别。

这种方法的整个网络架构如下图所示,分为三个部分:

按处理方式可以将传统OCR技术划分为图片预处理、文字识别、后处理三个阶段,其具体的技术流程如下图所示。

CTC:获得最后的标签序列。

CTPN由检测小尺度文本框、循环连接文本框、文本行边细化三个部分组成,具体实现流程为:

最后输出层输出结果。

2019年10月,高某声称自己儿子在美国打架需要卖掉北京的房子请律师。宋某表示愿意主动出借100万元人民币。随后其按照高某的指示前去银行办理了银行卡,存入100万元人民币,并将银行卡及密码寄给了高某。高某收到银行卡后大肆挥霍,一周后又向宋某声称还需要钱。宋某遂又向该银行卡转账70万元人民币。

输出层:输出单通道的分数特征图和多通道的几何特征图。

本方法基于CNN算法,相比RNN节省了内存空间,且通过卷积的并行运算提高了运算速度。

TextBoxes共有28层卷积,前13层来自于VGG-16(conv_1到conv4_3),后接9个额外的卷积层,最后是包含6个卷积层的多重输出层,被称为text-box layers,分别和前面的9个卷积层相连。由于这些default box都是细长型的,使得box在水平方向密集在垂直方向上稀疏,从而导致该模型对水平方向上的文字检测结果较好。

工业场景下的图像文本识别更为复杂,它会出现在许多不同的情景下,如医药包装上的文字、各类钢制零部件上的字符、集装箱表面喷印的字符、商铺Logo上的个性化字符等等。

模型首先在输入图片上运行滑动CNN以提取特征;

接下来的工作中,我们还遇到了一些问题。第一个就是感控问题。零感染是我们的底线,做好感控工作是基础和保障。由于医疗队里并没有专门从事感控工作的队员,而泰康同济医院的感控专家人数较少,我只能向中心刘丁主任等感控专家请教,一边到有感控人员指导的友邻科室实地查看,一边摸索设计我们科室的感控流程。

顾名思义,文字检测就是要检测到图片中文字所在的区域,其核心是区分文字和背景。常用的文字检测算法包括以下几种:

第一次进入隔离病区,看着空荡荡的病房,我和队员们都“傻”了,医疗物资没有,办公设备也没有……有的只是我们64名队员。而医院下达了任务要求,从14日开始抽组26名护士、5名医生到方舱医院工作,3天之内重症一科的所有准备工作必须就绪。

3.3端对端文字识别

使用此方法可以处理不定长的简单文字序列(如字符和字母),但是对较长的字符序列识别效果不佳。

将所得特征序列输入到推叠在CNN顶部的LSTM进行特征序列的编码;

经审查,犯罪嫌疑人高某虚构身份、编造虚假事由,诈骗被害人170万元人民币,用于挥霍和赌博等,涉嫌构成诈骗罪。目前,高某已经被检察机关批准逮捕,案件正在进一步侦查办理中。

队员们在工作和解除防护装备时,我也必须盯着屏幕,及时提醒队员按照流程操作、处置各类突发应急状况,保证每一名队员都能安全到达清洁区。

CTPN是ECCV 2016提出的一种文字检测算法,由Faster RCNN改进而来,结合了CNN与LSTM深度网络,其支持任意尺寸的图像输入,并能够直接在卷积层中定位文本行。

CTPN是基于Anchor的算法,在检测横向分布的文字时能得到较好的效果。此外,BLSTM的加入也进一步提高了其检测能力。

FOTS是一个快速的端对端的文字检测与识别框架,通过共享训练特征、互补监督的方法减少了特征提取所需的时间,从而加快了整体的速度。其整体结构如图所示:

就这样,我盯着工人师傅把每一根电线接好,每一扇门窗封好,甚至来科室考核穿脱防护服的专家都被我拉来,帮我走流程、提意见,经过一遍又一遍地改进,感控流程得到了逐步优化。

第一例新冠肺炎危重症患者转入重症一科,我的角色变成了一名感控“专家”。我利用自己学习的感控知识,在刘丁主任的指导下,承担起全科医务人员的感控督查工作。每一名队员进入病区前,我都必须亲自为其穿上防护服,仔细检查每一个细节,同时尽可能给予他们心理支持,哪怕只是一句鼓励的话和一个拥抱,确保无误后才准许进入。

文本检测:通过转化共享特征,输出每像素的文本预测;

识别网络:使用N个提取的文本图像进行文本识别。

病区已收治4名危重症患者。按照工作安排,我将陪同蒋东坡主任、梁泽平总护士长进入病区查房。在从驻地前往医院的路上,我的心在不停地打鼓,这是我第一次进入病区工作。

本方法采用的attention模型允许解码器在每一步的解码过程中,将编码器的隐藏状态通过加权平均,计算可变的上下文向量,因此可以时刻读取最相关的信息,而不必完全依赖于上一时刻的隐藏状态。

EAST算法借助其独特的结构和简练的pipline,可以检测不同方向、不同尺寸的文字且运行速度快,效率高。

看到婆婆的笑脸,心里一阵温暖。此时,我就是一名普普通通的护士!

目前,基于深度学习的场景文字识别主要包括两种方法,第一种是分为文字检测和文字识别两个阶段;第二种则是通过端对端的模型一次性完成文字的检测和识别。

其网络结构结合了HyperNet和U-shape思想,由三部分组成:

EAST算法是一个高效且准确的文字检测算法,仅包括全卷积网络检测文本行候选框和NMS算法过滤冗余候选框两个步骤。

第二个是物资问题。由于泰康同济医院是紧急筹建的专科医院,各类物资都是陆续到达。为了不影响病人的收治,易明玲护士长主要负责已有物资的请领发放,而我则协调筹措短缺物资,从泰康同济医院负责物资的各个部门、友邻单位、到中心后方支持,再到发动队员朋友,利用一切有效途径解决物资困难。

注意特征编码器:提取图片中文字区域的特征向量,并生成特征序列;

本文参考前沿文献,总结了当前主流的OCR场景检测技术。相对来说,使用基于深度学习的端对端检测模型可以实现快速、准确的文字识别,且可以灵活的应用于倾斜、弯曲、褶皱变形等复杂场景。

时间紧,任务重,一时之间不知道该怎么动手。我想起临行前中心护理部王亚玲主任再三叮嘱:“不要急,想好了再干。”于是,我们按照任务进行分工,大家立即投入到准备工作中。一部分队员搬运物资、安装调试设备,另一部分队员打扫病区和生活区的卫生,直到凌晨,我们仍在紧张有序地工作着。

案件被害人是居住在广州番禺、年近八旬的女性宋某。她于2018年通过电视广告购买保健品时认识了犯罪嫌疑人高某(22岁,甘肃人,小学文化)。

FOTS是一个将检测和识别集成化的框架,具有速度快、精度高、支持多角度等优点,减少了其他模型带来的文本遗漏、误识别等问题。

在所得特征图上使用3*3滑动窗口进行滑动,得到相应的特征向量;

STN-OCR使用单个深度神经网络,以半监督学习方式从自然图像中检测和识别文本。网络实现流程如下图所示,总体分为两个部分:

将所得特征向量输入BLSTM,学习序列特征,然后连接一个全连接FC层;

上一节中提到的CNN + RNN + attention方法不可避免的使用到RNN架构,RNN可以有效的学习上下文信息并捕获长期依赖关系,但其庞大的递归网络计算量和梯度消失/爆炸的问题导致RNN很难训练。基于此,有研究人员提出使用CNN与CTC结合的卷积网络生成标签序列,没有任何重复连接。

到达科室后,容不得多想,我立即穿上防护服进入病区,在进行病人床旁交班后,我和梁泽平总护士长开始帮患者调整卧位,整理床单,检查护理措施落实情况,设备物资管理情况等工作。这时,4床的婆婆突然叫住我:“我要喝水。”在确认婆婆可以进食后,我为她倒上温水,并准备好吸管,“谢谢你,姑娘!”婆婆微笑着对我说。

特征合并:使用上采样、串联、卷积等操作得到合并的特征图;

使用文字检测加文字识别两步法虽然可以实现场景文字的识别,但融合两个步骤的结果时仍需使用大量的手工知识,且会增加时间的消耗,而端对端文字识别能够同时完成检测和识别任务,极大的提高了文字识别的实时性。

此方法主要用于街牌号识别,对每个字符识别的架构为:先使用卷积网络提取特征,然后使用N+1个softmax分类器对每个字符进行分类。具体流程如下图所示:

通过文字检测对图片中的文字区域进行定位后,还需要对区域内的文字进行识别。针对文字识别部分目前存在几种架构,下面将分别展开介绍。

TextBoxes++保留了TextBoxes的基本框架,只是对卷积层的组成进行了略微调整,同时调整了default box的纵横比和输出阶段的卷积核大小,使得模型能够检测任意方向的文字。

定位网络:针对输入图像预测N个变换矩阵,相应的输出N个文本区域,最后借助双线性差值提取相应区域;

针对简单场景下的图片,传统OCR已经取得了很好的识别效果。但是从操作流程可以看出,传统方法是针对特定场景的图像进行建模的,一旦跳出当前场景,模型就会失效。随着近些年深度学习技术的迅速发展,基于深度学习的OCR技术也已逐渐成熟,能够灵活应对不同场景。

这是我们的战场——泰康同济医院重症一科病房。

雷锋网.雷锋网(公众号:雷锋网).

后来,宋某计划装修房子与该名“老教授”结婚,但在宋某急用钱时却发现高某无法联系上。朋友得知此事后将宋某购买的药拿去检测,发现宋某被骗。于是,宋某向公安机关报警,高某被抓获。

特征提取:使用PVANet/VGG16提取四个级别的特征图;

本方法的训练集不需要bbox标注,使用友好性较高;但目前此模型还不能完全检测出图像中任意位置的文本,需要在后期继续调整。

使用VGG16网络提取特征,得到conv5_3的特征图;

ROIRotate:将有角度的文本块,通过仿射变换转化为正常的轴对齐的本文块;

文本识别:使用ROIRotate转换的区域特征来得到文本标签。

卷积共享:从输入图象中提取特征,并将底层和高层的特征进行融合;

卷积序列建模:将特征序列转换为二维特征图输入CNN,获取序列中的上下文关系;

本方法是基于视觉注意力的文字识别算法。主要分为以下三步:

高某当时任职于某电视购物公司,却自称是北京同仁堂的医师,其通过电话向宋某宣传出售产品时,发现宋某购买力比较强,出手阔绰。于是,高某离职前盗取了宋某的联系资料,其后高某自称是北京同仁堂的老教授“纪某某”,刻意模仿老者的语速说话,与宋某通过电话微信聊天保持联系,并与其确立了恋爱关系。

使用注意力模型进行解码,并输出标签序列。

雷锋网特约稿件,。详情见转载须知。

在这类图像中,文字部分可能会呈现为弯曲排列、曲面异形、倾斜分布、褶皱变形、残缺不全等多种形式,与标准字符的特征有较大出入,从而给图像文字的检测与识别带来了困难。

传统OCR技术通常使用OpenCV算法库,通过图像处理和统计机器学习方法提取图像中的文字信息,用到的技术包括二值化、噪声滤除、连通域分析和Adaboost、SVM等。

TextBoxes和TextBoxes++模型都来自华中科技大学的白翔老师团队,其中TextBoxes是改进版的SSD,而TextBoxes++则是在前者的基础上继续扩展。