2018年11月20日,光学字符识别(OCR)领域的重要指标--国际文档分析与识别大会(ICDAR)测试集被再次刷新,中国高校及企业包揽ICDAR2015排行榜前五,依次为云从科技(Pixel-Anchor)、南京大学与南京理工大学(PSENet)、旷视科技(Mask Text)、商汤科技(FOTS)、阿里巴巴(IncepText)。
CDAR2015榜单(2018年11月20日)。F值代表精度和检出率的调和平均数,也是排名的根据,F值越大,检测结果越优。
2018年11月20日,云从科技在预印本网站arXiv上发表了最新论文成果,该论文提出了用于自然场景文本检测的Pixel-Anchor框架。论文发表之前,他们在国际文档分析与识别大会发布的ICDAR2015和ICDAR2017 MLT数据集上检测了Pixel-Anchor算法,并刷新了ICDAR2015的最佳成绩。
据悉,ICDAR2015是纯英文文本检测数据集,ICDAR2017 MLT则包含了拉丁文、英文、中文、韩文、日文、阿拉伯文等9种文字。云从的Pixel-Anchor算法在ICDAR2017 MLT综合榜单中排名第四,排名前三的三家国外机构没有提交公开论文。除去没有发表公开论文的几家机构,ICDAR2017 MLT数据集前五名及框架名称分别是云从科技(Pixel-Anchor)、阿里巴巴(ATL-cangjie)、商汤科技(FOTS)、旷视科技(EAST++)、南京大学(PSENet_NJU)。ICDAR2017 MLT的中文榜单中,云从科技排名第一,商汤科技位居第二。
相较于传统的文本检测OCR,自然场景中的各种商品、布景或自然场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等挑战。与针对高质量文档图像的传统OCR相比,自然场景文本检测能在更宽泛的领域中应用,例如照片分析、车牌识别,图片广告过滤,场景理解,商品识别,街景定位,票据识别等。该项赛事中中国企业的优异表现,说明我国在计算机视觉的文本检测这一细分市场中,具有较强的技术领先优势,为日后技术商业化落地奠定了良好的基础。