一种文字识别方法、装置、机器可读介质及设备与流程

专利查询2023-7-31 114

1.本发明涉及人工智能领域，具体涉及一种文字识别方法、装置、机器可读介质及设备。

背景技术：

2.在ocr领域，对于识别固定版式的文本(例如身份证、驾驶证、增值税发票等)，我们通常采用深度学习的方法过拟合检测直接定位到需要识别的文本。这种方法具有精度高、抗干扰、速度快等优点。
3.而对于开放版式的文本(例如各省市的定额发票、出租车票等)，其内容和格式没有严格的规定，导致文本信息的分布存在一定随机性，单一的深度网络模型无法准确地定位需要识别的票面信息。如果针对每种格式的票面专门训练分类和字段检测模型，时间和人力成本又会大大增加，需要的机器资源也会成倍增加。

技术实现要素：

4.鉴于以上所述现有技术的缺点，本发明的目的在于提供一种文字识别方法、装置、机器可读介质及设备，用于解决现有技术存在的问题。
5.为实现上述目的及其他相关目的，本发明提供一种文字识别方法，包括：
6.获取待识别图像上记载的文本信息以及文本信息对应的位置信息；所述文本信息包括标题字段和内容字段；
7.根据预设匹配规则，并基于待匹配的标题字段和内容字段从所述文本信息中匹配出一个或多个与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；
8.基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的一个或多个候选标题字段进行组合，得到一个或多个候选标题字段组合；
9.从一个或多个候选标题字段组合中确定出目标标题字段组合；
10.根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内容字段。
11.可选地，所述预设匹配规则包括以下至少之一：正则匹配、字符集匹配、模糊匹配；其中，
12.所述正则匹配表示通过正则表达式进行匹配；
13.所述字符集匹配表示通过限定的字符集，匹配到对应的文本内容；
14.所述模糊匹配表示通过模糊匹配算法进行匹配。
15.可选地，所述各标题字段之间的位置关系包括上下位置关系或左右位置关系。
16.可选地，所述从一个或多个候选标题字段组合中确定出目标标题字段组合，包括：
17.根据候选标题字段对应的预设匹配规则的优先级从一个或多个候选标题字段组合中确定出目标标题字段组合。
18.可选地，该方法还包括：对所述待识别图像进行预处理，所述预处理包括根据图像
清晰度对所述待识别图像进行筛选；通过文字识别模型识别的图像数据为图像清晰度超过预设阈值的图像数据。
19.为实现上述目的及其他相关目的，本发明提供一种文字识别装置，包括：
20.文本识别模块，用于获取待识别图像上记载的文本信息以及文本信息对应的位置信息；所述文本信息包括标题字段和内容字段；
21.匹配模块，用于根据预设匹配规则，并基于待匹配的标题字段和内容字段从所述文本信息中匹配出一个或多个与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；
22.组合模块，用于基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的一个或多个候选标题字段进行组合，得到一个或多个候选标题字段组合；
23.筛选模块，用于从一个或多个候选标题字段组合中确定出目标标题字段组合；
24.目标内容字段确定模块，用于根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内容字段。
25.可选地，所述预设匹配规则包括以下至少之一：正则匹配、字符集匹配、模糊匹配；其中，
26.所述正则匹配表示通过正则表达式进行匹配；
27.所述字符集匹配表示通过限定的字符集，匹配到对应的文本内容；
28.所述模糊匹配表示通过模糊匹配算法进行匹配。
29.可选地，所述各标题字段之间的位置关系包括上下位置关系或左右位置关系。
30.可选地，所述筛选模块根据候选标题字段对应的预设匹配规则的优先级从一个或多个候选标题字段组合中确定出目标标题字段组合。
31.可选地，该装置还包括：预处理模块，用于对所述待识别图像进行预处理，所述预处理包括根据图像清晰度对所述待识别图像进行筛选；通过文字识别模型识别的图像数据为图像清晰度超过预设阈值的图像数据。
32.为实现上述目的及其他相关目的，本发明还提供一种文字识别设备，包括：
33.一个或多个处理器；和
34.其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行前述的一个或多个所述的方法。
35.为实现上述目的及其他相关目的，本发明还提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行前述的一个或多个所述的方法。
36.如上所述，本发明提供的一种文字识别方法、装置、机器可读介质及设备，具有以下有益效果：
37.本发明的一种文字识别方法，包括：获取待识别图像上记载的文本信息以及文本信息对应的位置信息；所述文本信息包括标题字段和内容字段；根据预设匹配规则，并基于待匹配的标题字段和内容字段从所述文本信息中匹配出一个或多个与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的一个或多个候选标题字段进行组合，得到一个或多个候选标题字段组合；从一个或多个候选标题字段组合中确定出目标标题字段组合；根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内
容字段。本发明可以实现多标题字段以及多匹配规则处理等功能，解决了开放版式票据模型定位精度低、开发周期长、泛化能力差等问题，具有很好的鲁棒性，在真实场景中具有高准确率。
附图说明
38.图1为本发明一实施例一种文字识别方法的流程图；
39.图2为本发明一实施例一种文字识别装置的硬件结构示意图；
40.图3为本发明一实施例中终端设备的硬件结构示意图；
41.图4为本发明一实施例中终端设备的硬件结构示意图。
具体实施方式
42.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
43.需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
44.如图1所示，本实施例提供一种文字识别方法，包括：
45.s11获取待识别图像上记载的文本信息以及文本信息对应的位置信息；所述文本信息包括标题字段和内容字段；
46.s12根据预设匹配规则，并基于待匹配的标题字段和内容字段从所述文本信息中匹配出一个或多个与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；
47.s13基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的一个或多个候选标题字段进行组合，得到一个或多个候选标题字段组合；
48.s14从一个或多个候选标题字段组合中确定出目标标题字段组合；
49.s15根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内容字段。
50.本发明可以实现多标题字段以及多匹配规则处理等功能，解决了开放版式票据模型定位精度低、开发周期长、泛化能力差等问题，仅需修改配置文件即可实现快速定位关键文本的目的，具有很好的鲁棒性，在真实场景中具有高准确率。
51.在步骤s11中，待识别图像是指通过对待识别对象进行拍照、扫描等方式获得的图像信息。通过文字识别方法将待识别图像上以光学字符记载的文字信息转化为文本信息输出。具体地，文字识别方法可以是基于ocr(optical character recognition,光学字符识别)的文字识别方法。通过步骤s11后，可以得到一个或多个标题字段，得到一个或多个内容字段。这些字段中包括了目标字段-即想要的字段，不包括了干扰字段-即不想要的字段。
52.在步骤s12中，根据预设匹配规则，并基于待匹配的标题字段和内容字段从所述文本信息中匹配出一个或多个与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；
53.其中，所述预设匹配规则包括以下至少之一：正则匹配、字符集匹配、模糊匹配。
54.预设匹配规则可以是上述规则中的一种，例如，只包括正则匹配，或只包括字符集匹配，或只我括模糊匹配。当然，也可以包括上述规则中的几种，例如，可以包括正则匹配、字符集匹配，或包括正则匹配、模糊匹配，或包括字符集匹配、模糊匹配。按照上述方式，可以先进行正则匹配，然后进行字符集匹配。最终通过多种匹配方式的组合，可精确地匹配到目标字段。
55.从步骤s11得到的文本信息，通过正则匹配、字符集匹配、模糊匹配中的一个或多个匹配方式获取候选标题字段和对应的候选内容字段。以身份证为例，“身份证号”、“居住地址”为标题字段，而“320102********1234”和“上海市**区**路**号”为内容字段。
56.其中，所述正则匹配表示通过正则表达式进行匹配；具体地，通过正则表达式精准匹配字段内容，可用于标题字段和内容字段的匹配。
57.所述字符集匹配表示通过限定的字符集，匹配到对应的文本内容；具体地，通过查找一个限定的字符集，获得对应的文本内容，可用于内容字段的匹配。例如，已知字段内容是大写金额，那么可以限定字符集为“壹贰叁肆伍陆柒捌玖拾佰仟萬亿圆角分零整”，其他字符可排除。
58.所述模糊匹配表示通过模糊匹配算法进行匹配；具体地，给定固定的标题字段，允许识别结果存在一定的误差的情况下匹配到对应的结果，可用于标题字段的匹配。例如，需要匹配的是“深圳北”，如果仅知道地市名称，不清楚具体站，就可以利用“深圳*”来进行匹配。
59.当然，本实施例并不限于上述匹配规则，还可以包括其他匹配规则。例如，在对日期进行匹配时，已经日期格式为8位数字，可以设计两种匹配规则。规则一是20xx[01]x[0123]x，方括号代表任一内部候选字符；规则二是任意连续八个数字。
[0060]
在步骤s13中，基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的一个或多个候选标题字段进行组合，得到一个或多个候选标题字段组合。
[0061]
其中，所述各标题字段之间的位置关系包括上下位置关系或左右位置关系。
[0062]
以身份证为例，有姓名、性别、地址等多个类型的字段，姓名和性别有固定的上下位置关系，可以进行组合，得到候选标题字段组合一；而性别和民族有固定的左右位置关系，可以进行组合，得到候选标题字段组合二。根据各标题字段之间的位置关系对候选标题字段进行匹配组合，能够准确定位到候选标题字段进行组合，防止单纯依赖候选字段导致的误匹配问题。例如，票面上存在多个号码时仅靠匹配规则无法区分票据号码、电话号码、发票号码等。
[0063]
s14从一个或多个候选标题字段组合中确定出目标标题字段组合；
[0064]
具体地，根据候选标题字段对应的预设匹配规则的优先级从一个或多个候选标题字段组合中确定出目标标题字段组合。
[0065]
例如，每一个候选标题字段组合中包括多个候选标题，每一个候选标题都是通过预设匹配规则匹配出来的，在前述通过预设匹配规则匹配出标题字段的过程，可以设置预
设匹配规则的优先级，比如，正则匹配的优先级大于字符集匹配的优先级，字符集匹配的优先级大于模糊匹配的优先级。那么在选择目标标题字段的时候，可以将优先级最大的候选标题字段作为目标标题字段，将选择出的目标标题字段进行组合作为目标标题字段组合。当然，目标标题字段中的每一个目标标题对应的匹配规则的优先级是最大的。除此之外，还可以采用确定每一个候选标题字段的总的优先级，通过总的优先级来确定目标标题字段组合。具体地，在每一个候选标题组合中，将每一个候选标题字段的优先级设置为一个常数，比如，通过正则匹配得到的候选标题的优先级为1，通过字符集匹配得到的候选标题的优先级为2，通过模糊匹配得到的候选标题的优先级为3，将候选标题字段中的所述优先级相加，得到总的优先级，然后将最高的总的优先级所对应候选标题字段组合作为目标标题字段组合。
[0066]
当然，除了根据匹配规则的优先级从一个或多个候选标题字段组合中确定出目标标题字段组合之外，还可以根据候选标题字段组合中候选标题字段的字段数量从一个或多个候选标题字段组合中确定出目标标题字段组合。其中，以候选标字段的字段数量多的作为目标标题字段组合。
[0067]
例如，以身份证为例，若候选标题字段组合1为姓名、性别、生日、地址，候选标题字段组合2为姓名、性别、生日，由于候选标题字段组合1的字段数为4个，候选标题字段组合2的字段数为3个，则候选标题字段组合1为目标标题字段。
[0068]
当然，还可以先设定字段组合条件，满足字段组合条件的作为目标标题字段组合。比如，多个字段根据位置关系的组合，参考身份证的姓名、性别、生日、地址四个上下关系的字段，可规定四个字段必须同时找到三个或者全部找到才输出最终结果，即匹配出的候选标题字段中包括姓名、性别、生日、地址或者其中的三者才能作为目标标题字段。
[0069]
在步骤s15中，根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内容字段。
[0070]
具体地，提取上述优先级最高的标题字段和内容字段作为目标标题字段与目标内容字段。目标标题字段确定后，再根据相对关系寻找目标内容字段，比如“姓名”字段确定后，“姓名”的内容字段就是其右边最近的“某某某”；内容字段确定后就可以直接输出，比如符合规则的18位数字和字母x字符串，直接输出为身份证号。
[0071]
在一实施例中，该方法还包括：对所述待识别图像进行预处理，所述预处理包括根据图像清晰度对所述待识别图像进行筛选；通过文字识别模型识别的图像数据为图像清晰度超过预设阈值的图像数据。
[0072]
其中，预设阈值可以根据经验先设置，预设阈值作为判断所述待识别图像的清晰度是否满足要求的标准。若所述待识别图像的清晰度大于或等于所述预设阈值时，所述待识别图像的清晰度满足要求的标准，否则，所述待识别图像的清晰度不满足要求的标准。
[0073]
以下通过对身份证的识别对本技术进行说明
[0074]
第一步，识别出图片上所有的文本；
[0075]
第二步，通过预设匹配规则匹配出姓名、性别、民族、出生、住址、公民身份证号码等标题字段，还会匹配出一定规则的内容字段，比如出生的具体日期(xxxx年xx月xx日)和公民身份证号码(18位数字和字母x)。在图片上除了身份证，若还有其他票据文本时，可能会出现多个候选字段。
[0076]
第三步，根据姓名、性别、出生、住址、公民身份号码的上下位置关系，性别和民族的左右位置关系，确定所有可能的组合，并按照优先级排序。
[0077]
第四步，提取上述优先级最高的标题字段和内容字段标题字段确定后，再根据相对位置关系寻找内容字段，比如“姓名”字段确定后，“姓名”的内容字段就是其右边最近的“某某某”；内容字段确定后就可以直接输出。
[0078]
综上所述，本技术的一种文字识别方法，包括：获取待识别图像上记载的文本信息以及文本信息对应的位置信息；所述文本信息包括标题字段和内容字段；根据预设匹配规则，并基于待匹配的标题字段和内容字段从所述文本信息中匹配出一个或多个与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的一个或多个候选标题字段进行组合，得到一个或多个候选标题字段组合；从一个或多个候选标题字段组合中确定出目标标题字段组合；根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内容字段。本发明可以实现多标题字段以及多匹配规则处理等功能，解决了开放版式票据模型定位精度低、开发周期长、泛化能力差等问题，具有很好的鲁棒性，在真实场景中具有高准确率。
[0079]
如图2所示，本技术一实施例提供一种文字识别装置，包括：
[0080]
文本识别模块21，用于获取待识别图像上记载的文本信息以及文本信息对应的位置信息；所述文本信息包括标题字段和内容字段；
[0081]
匹配模块22，用于根据预设匹配规则，并基于待匹配的标题字段和内容字段从所述文本信息中匹配出一个或多个与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；
[0082]
组合模块23，用于基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的一个或多个候选标题字段进行组合，得到一个或多个候选标题字段组合；
[0083]
筛选模块24，用于从一个或多个候选标题字段组合中确定出目标标题字段组合；
[0084]
目标内容字段确定模块25，用于根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内容字段。
[0085]
本发明可以实现多标题字段以及多匹配规则处理等功能，解决了开放版式票据模型定位精度低、开发周期长、泛化能力差等问题，仅需修改配置文件即可实现快速定位关键文本的目的，具有很好的鲁棒性，在真实场景中具有高准确率。
[0086]
待识别图像是指通过对待识别对象进行拍照、扫描等方式获得的图像信息。通过文字识别方法将待识别图像上以光学字符记载的文字信息转化为文本信息输出。具体地，文字识别方法可以是基于ocr(optical character recognition,光学字符识别)的文字识别方法。通过步骤s11后，可以得到一个或多个标题字段，得到一个或多个内容字段。这些字段中包括了目标字段-即想要的字段，不包括了干扰字段-即不想要的字段。
[0087]
在一实施例中，所述预设匹配规则包括以下至少之一：正则匹配、字符集匹配、模糊匹配；其中，预设匹配规则可以是上述规则中的一种，例如，只包括正则匹配，或只包括字符集匹配，或只我括模糊匹配。当然，也可以包括上述规则中的几种，例如，可以包括正则匹配、字符集匹配，或包括正则匹配、模糊匹配，或包括字符集匹配、模糊匹配。按照上述方式，可以先进行正则匹配，然后进行字符集匹配。最终通过多种匹配方式的组合，可精确地匹配
到目标字段。
[0088]
从前述得到的文本信息，通过正则匹配、字符集匹配、模糊匹配中的一个或多个匹配方式获取候选标题字段和对应的候选内容字段。以身份证为例，“身份证号”、“居住地址”为标题字段，而“320102********1234”和“上海市**区**路**号”为内容字段。
[0089]
其中，所述正则匹配表示通过正则表达式进行匹配；具体地，通过正则表达式精准匹配字段内容，可用于标题字段和内容字段的匹配。
[0090]
所述字符集匹配表示通过限定的字符集，匹配到对应的文本内容；具体地，通过查找一个限定的字符集，获得对应的文本内容，可用于内容字段的匹配。例如，已知字段内容是大写金额，那么可以限定字符集为“壹贰叁肆伍陆柒捌玖拾佰仟萬亿圆角分零整”，其他字符可排除。
[0091]
所述模糊匹配表示通过模糊匹配算法进行匹配；具体地，给定固定的标题字段，允许识别结果存在一定的误差的情况下匹配到对应的结果，可用于标题字段的匹配。例如，需要匹配的是“深圳北”，如果仅知道地市名称，不清楚具体站，就可以利用“深圳*”来进行匹配。
[0092]
当然，本实施例并不限于上述匹配规则，还可以包括其他匹配规则。例如，在对日期进行匹配时，已经日期格式为8位数字，可以设计两种匹配规则。规则一是20xx[01]x[0123]x，方括号代表任一内部候选字符；规则二是任意连续八个数字。
[0093]
在一实施例中，所述各标题字段之间的位置关系包括上下位置关系或左右位置关系。
[0094]
以身份证为例，有姓名、性别、地址等多个类型的字段，姓名和性别有固定的上下位置关系，可以进行组合，得到候选标题字段组合一；而性别和民族有固定的左右位置关系，可以进行组合，得到候选标题字段组合二。根据各标题字段之间的位置关系对候选标题字段进行匹配组合，能够准确定位到候选标题字段进行组合，防止单纯依赖候选字段导致的误匹配问题。例如，票面上存在多个号码时仅靠匹配规则无法区分票据号码、电话号码、发票号码等。
[0095]
在一实施例中，所述筛选模块根据候选标题字段对应的预设匹配规则的优先级从一个或多个候选标题字段组合中确定出目标标题字段组合。
[0096]
例如，每一个候选标题字段组合中包括多个候选标题，每一个候选标题都是通过预设匹配规则匹配出来的，在前述通过预设匹配规则匹配出标题字段的过程，可以设置预设匹配规则的优先级，比如，正则匹配的优先级大于字符集匹配的优先级，字符集匹配的优先级大于模糊匹配的优先级。那么在选择目标标题字段的时候，可以将优先级最大的候选标题字段作为目标标题字段，将选择出的目标标题字段进行组合作为目标标题字段组合。当然，目标标题字段中的每一个目标标题对应的匹配规则的优先级是最大的。除此之外，还可以采用确定每一个候选标题字段的总的优先级，通过总的优先级来确定目标标题字段组合。具体地，在每一个候选标题组合中，将每一个候选标题字段的优先级设置为一个常数，比如，通过正则匹配得到的候选标题的优先级为1，通过字符集匹配得到的候选标题的优先级为2，通过模糊匹配得到的候选标题的优先级为3，将候选标题字段中的所述优先级相加，得到部的优先级，然后将最高的总的优先级所对应候选标题字段组合作为目标标题字段组合。
[0097]
提取上述优先级最高的标题字段和内容字段作为目标标题字段与目标内容字段。目标标题字段确定后，再根据相对关系寻找目标内容字段，比如“姓名”字段确定后，“姓名”的内容字段就是其右边最近的“某某某”；内容字段确定后就可以直接输出，比如符合规则的18位数字和字母x字符串，直接输出为身份证号。
[0098]
在一实施例中，该装置还包括：预处理模块，用于对所述待识别图像进行预处理，所述预处理包括根据图像清晰度对所述待识别图像进行筛选；通过文字识别模型识别的图像数据为图像清晰度超过预设阈值的图像数据。
[0099]
其中，预设阈值可以根据经验先设置，预设阈值作为判断所述待识别图像的清晰度是否满足要求的标准。若所述待识别图像的清晰度大于或等于所述预设阈值时，所述待识别图像的清晰度满足要求的标准，否则，所述待识别图像的清晰度不满足要求的标准。
[0100]
本技术实施例还提供了一种设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准语音层面3，moving picture experts groupaudio layer iii)播放器、mp4(动态影像专家压缩标准语音层面4，moving picture experts group audio layer iv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本技术实施例对于具体的设备不加以限制。
[0101]
本技术实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本技术实施例的图1中方法所包含步骤的指令(instructions)。
[0102]
图3为本技术一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速ram存储器，也可能还包括非易失性存储nvm，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。
[0103]
可选的，上述第一处理器1101例如可以为中央处理器(central processing unit，简称cpu)、应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
[0104]
可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如usb接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。
[0105]
在本实施例中，该终端设备的处理器包括用于执行各设备中各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。
[0106]
图4为本技术的一个实施例提供的终端设备的硬件结构示意图。图3是对图4在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
[0107]
第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。
[0108]
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称ram)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
[0109]
可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，语音组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。
[0110]
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述数据处理方法中的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。
[0111]
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。
[0112]
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(lcd)和触摸面板(tp)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。
[0113]
语音组件1206被配置为输出和/或输入语音信号。例如，语音组件1206包括一个麦克风(mic)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，语音组件1206还包括一个扬声器，用于输出语音信号。
[0114]
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。
[0115]
传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。
[0116]
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个实施例中，该终端设备中可以包括sim卡插槽，该sim卡插槽用于插入sim卡，使得终端设备可以登
录gprs网络，通过互联网与服务器建立通信。
[0117]
由上可知，在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。
[0118]
上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

技术特征：
1.一种文字识别方法，其特征在于：包括：获取待识别图像上记载的文本信息以及文本信息对应的位置信息；所述文本信息包括标题字段和内容字段；根据预设匹配规则，并基于待匹配的标题字段和内容字段从所述文本信息中匹配出一个或多个与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的一个或多个候选标题字段进行组合，得到一个或多个候选标题字段组合；从一个或多个候选标题字段组合中确定出目标标题字段组合；根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内容字段。2.根据权利要求1所述的文字识别方法，其特征在于，所述预设匹配规则包括以下至少之一：正则匹配、字符集匹配、模糊匹配；其中，所述正则匹配表示通过正则表达式进行匹配；所述字符集匹配表示通过限定的字符集，匹配到对应的文本内容；所述模糊匹配表示通过模糊匹配算法进行匹配。3.根据权利要求1所述的文字识别方法，其特征在于，所述各标题字段之间的位置关系包括上下位置关系或左右位置关系。4.根据权利要求1所述的文字识别方法，其特征在于，所述从一个或多个候选标题字段组合中确定出目标标题字段组合，包括：根据候选标题字段对应的预设匹配规则的优先级从一个或多个候选标题字段组合中确定出目标标题字段组合。5.根据权利要求1所述的文字识别方法，其特征在于，该方法还包括：对所述待识别图像进行预处理，所述预处理包括根据图像清晰度对所述待识别图像进行筛选；通过文字识别模型识别的图像数据为图像清晰度超过预设阈值的图像数据。6.一种文字识别装置，其特征在于：包括：文本识别模块，用于获取待识别图像上记载的文本信息以及文本信息对应的位置信息；所述文本信息包括标题字段和内容字段；匹配模块，用于根据预设匹配规则，并基于待匹配的标题字段和内容字段从所述文本信息中匹配出一个或多个与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；组合模块，用于基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的一个或多个候选标题字段进行组合，得到一个或多个候选标题字段组合；筛选模块，用于从一个或多个候选标题字段组合中确定出目标标题字段组合；目标内容字段确定模块，用于根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内容字段。7.根据权利要求6所述的文字识别装置，其特征在于，所述预设匹配规则包括以下至少之一：正则匹配、字符集匹配、模糊匹配；其中，所述正则匹配表示通过正则表达式进行匹配；所述字符集匹配表示通过限定的字符集，匹配到对应的文本内容；
所述模糊匹配表示通过模糊匹配算法进行匹配。8.根据权利要求6所述的文字识别装置，其特征在于，所述各标题字段之间的位置关系包括上下位置关系或左右位置关系。9.根据权利要求6所述的文字识别装置，其特征在于，所述筛选模块根据候选标题字段对应的预设匹配规则的优先级从一个或多个候选标题字段组合中确定出目标标题字段组合。10.根据权利要求6所述的文字识别装置，其特征在于，该装置还包括：预处理模块，用于对所述待识别图像进行预处理，所述预处理包括根据图像清晰度对所述待识别图像进行筛选；通过文字识别模型识别的图像数据为图像清晰度超过预设阈值的图像数据。11.一种文字识别设备，其特征在于，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如权利要求1-5中一个或多个所述的方法。12.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-5中一个或多个所述的方法。

技术总结
本发明公开了一种文字识别方法，包括：获取待识别图像上记载的文本信息以及文本信息对应的位置信息；根据预设匹配规则，并基于待匹配的标题字段和内容字段从文本信息中匹配出与待匹配的标题字段和内容字段对应的候选标题字段以及候选内容字段；基于待识别对象中各标题字段之间的位置关系，对从文本信息中匹配出的候选标题字段进行组合，得到候选标题字段组合；从候选标题字段组合中确定出目标标题字段组合；根据目标标题段组合中的目标标题段以及目标标题字段与目标内容字段的位置关系确定目标内容字段。本发明可以实现多标题字段以及多匹配规则处理等功能，解决了开放版式票据模型定位精度低、开发周期长、泛化能力差等问题，具有很好的鲁棒性，在真实场景中具有高准确率。准确率。准确率。

技术研发人员：肖遥陈静许梅芳
受保护的技术使用者：重庆中科云从科技有限公司
技术研发日：2021.12.07
技术公布日：2022/3/8

专利

最新回复(0)