贝壳找房申请文档图像中多页文本的分页专利,显著提高多文本OCR识别准确性和效率

金融界 2025-02-13 13:19:52

金融界2025年2月13日消息,国家知识产权局信息显示,贝壳找房(北京)科技有限公司申请一项名为“文档图像中多页文本的分页方法、电子设备、存储介质及程序产品”的专利,公开号CN119399787A,申请日期为2024年11月。

专利摘要显示,本发明提供一种文档图像中多页文本的分页方法、电子设备、存储介质及程序产品,该方法包括:获取文档图像的OCR识别结果;其中,文档图像包括至少两页页面;根据OCR识别结果确定文档图像中的文本块及文本块位置;响应于确定文本块中的字符具备页码字符特征、页码上下文特征及页码位置特征,确定文本块中的字符为疑似页码;其中,页码位置特征包括页码在页面的边角或页码在页面的中部;根据疑似页码的位置及页码位置特征确定分页线;根据分页线将多页文本进行分页,并且根据文本块的位置将文本块中的字符划分到对应的页面。本发明实现了多页OCR文本识别的自动化高效准确分页,并且分页识别不依赖页码顺序,灵活性高,显著提高了多文本OCR识别的准确性和效率,减少了OCR识别中的人工干预,降低了人工成本,极大地提升了文档处理的自动化水平和效率。

天眼查资料显示,贝壳找房(北京)科技有限公司,成立于2015年,位于北京市,是一家以从事房地产业为主的企业。企业注册资本1000万人民币,实缴资本1000万人民币。通过天眼查大数据分析,贝壳找房(北京)科技有限公司共对外投资了2家企业,参与招投标项目18次,知识产权方面有商标信息199条,专利信息1269条,此外企业还拥有行政许可17个。

本文源自:金融界

0 阅读:0
金融界

金融界

财经媒体、互联网金融、财富管理