|
在与大连日报社进行了深入沟通后,文通信息发现这项工作看似简单,但是实施的难度相当大,而且技术要求极高。首先就是处理的报纸数量极大。从建社到现在,大连日报需要数字化的报纸有40~50年,总量超过10 万版,其次就是个别报纸由于年代久远,保存质量非常差,这为下一步的处理带来了很大的麻烦。最后一道难关就是要在报纸信息化工作之后,实现光盘的制作、索引、管理。如何从技术上成功跨越这“三道门槛”,特别是如果能在老报纸的识别率方面有所突破,报纸信息化工作将迎刃而解。
针对面临的实际困难,文通信息提供了一套包括报纸扫描、文字识别,光盘检索出版、发布在内完整的报纸数字化解决方案,同时这也是我国第一套完整的报纸数字化解决方案。
文通报纸数字化制作系统是一套科技含量极高的软件系统,它主要由生产流程子系统和光盘制作子系统组成,包括中文OCR(文字识别)技术、电子版面恢复技术、数字化生产流程控制、光盘检索发布技术等若干核心技术。(详见图1生产制作流程图)特别是在老报纸识别方面,该系统的识别效果更为理想。

该系统首先通过大幅扫描仪对报纸进行扫描,然后对扫描后的图像进行处理,目的是为了去除扫描过程中的杂点和边框,进一步提高识别效果。
此后,系统将对处理后的图像进行版面分析。通过先进的OCR识别技术,系统可以自动识别出报纸的文字、标题以及图像,并进行相应分类。在这过程中,操作人员可以随时对版面分析的结果进行校对,保证了识别的准确性。
在进行了版面分析以及文字校对之后,系统将对处理后的报纸进行标引加工、文档精细加工等一系列版面美化工作,最终形成可以方便应用的精美的电子文档。在此基础上,对这些电子文档进行光盘发布,就可以形成供全社会使用的数字资源。在经历了前期设备安装调试、人员培训、试验之后,大连日报社报纸数字化工作如期启动。
在文通技术人员的指导下,报社工作人员对系统的操作熟练程度越来越高,产量和质量也在逐步提高,生产出来的报纸资料文字清晰,光盘查询简单、方便,得到了报社专家的一致好评。同时,由于报纸数字化工作增加了当地的就业机会,大连日报社还得到了市委领导的肯定。目前,大连日报社的报纸数字化工作正在紧张有序地进行,而且报社还接到了许多来自其他行业“文字数字化制作”方面的订单,可谓“名利双收”。我们也希望大家能从这个成功案例中受到有益的启发,为自己的企业走上数字信息化借鉴一些经验。
|