将实体与类别相关联的制作方法

xiaoxiao2020-08-01  3

专利名称:将实体与类别相关联的制作方法
技术领域
本文档涉及信息处理。
背景技术
广告主可以在多个不同平台中的任何平台上运行广告活动,所述多个不同平台包括因特网、电视、无线电广播以及广告牌。在广告活动中所使用的广告可以覆盖产品和服务的范围,并且可以定向特定受众或更一般地定向更大人群。例如,运行网站的发布者可以向广告主提供空间用于呈现广告。呈现在网站上的广告有时基于网站的内容来选择。

发明内容
本发明涉及将实体与类别相关联。在第一方面中,一种用于将实体与类别相关联的计算机实现的方法包括为多个类别中的至少子集中的每一个确定概率值,所述概率值表示识别的实体属于相应类别的可能性并且使用关于实体的信息来确定。该方法包括为实体记录多个类别中的一个类别,类别使用概率值和用于多个类别的规则集来识别。实施方式可以包括以下特征中的任何、全部特征或不包括以下特征。实体可以是被识别为加入在程序中的内容提供者,在所述程序中内容提供者提供待由至少一个发布者发布的内容,以及概率值可以使用与内容提供者相关联的至少一个关键词以及与内容提供者相关联的至少一个财务值来确定。确定概率值可以包括将至少一个关键词至少映射到多个类别的子集;用至少一个财务值对至少子集赋予权重,其中财务值已被分配给对应关键词;以及选择预定数量的类别作为子集。规则集可以基于训练数据。规则集可以包括决策树,其被配置用于通过处理包括在决策树中的多个决策中的至少部分来选择多个类别中的一个。该方法可以进一步包括使用训练数据来生成决策树,其中训练数据包括实体到多个类别中的一个或多个的映射。生成决策树可以进一步包括使用有关实体的财务数据对映射赋予权重。对映射赋予权重可以进一步包括基于与映射的至少子集相对应的财务数据来过采样(oversample)映射的所述子集。生成决策树可以包括选择用于决策树的结构;确定决策树的延伸区(extent),包括在选择多个类别中的一个之前待进行的多个决策中的决策数量;以及确定待在多个决策中使用的阈值。可以迭代生成决策树。内容提供者可以从事于广告,以及多个类别可以包括内容提供者待与之匹配的垂直元(vertical)。生成决策树可以进一步包括识别垂直元中的至少一个,对于其概率值的确定具有将垂直元不恰当地分配给内容提供者的倾向;以及选择阈值中的至少一个,使得降低所述倾向。该方法可以进一步包括基于已为实体识别的类别向用户呈现信息。信息可以指示与类别相关联的季节性。在第二方面中,一种计算机系统包括第一分类器,其为多个类别中的至少子集中的每一个类别确定概率值,所述概率值表示识别的实体属于相应类别的可能性并且使用关于实体的信息来确定。该系统包括第二分类器,其使用概率值和用于多个类别的规则集来为实体识别多个类别中的一个类别。实施方式可以包括以下特征中的任何、全部特征或不包括以下特征。规则集可以基于训练数据。第一分类器在确定概率值时可以考虑与实体有关的财务值。规则集可以包括决策树,其被配置用于通过处理包括在决策树中的多个决策中的至少部分来选择多个类别中的一个,以及该计算机系统可以进一步包括使用训练数据来生成决策树的规则组件, 其中训练数据包括实体到多个类别中的一个或多个的映射。规则组件可以使用有关实体的财务数据对映射赋予权重,包括基于与映射的至少子集相对应的财务数据来过采样映射的所述子集。该系统可以进一步包括前端组件,其基于第二分类器已为实体识别了类别向用户呈现信息。在第三方面中,一种用于将内容提供者与类别相关联的计算机实现的方法包括将内容提供者识别为加入在程序中,在所述程序中内容提供者提供待由至少一个发布者发布的内容。该方法进一步包括接收有关内容提供者的至少一个关键词和有关关键词的至少一个财务值。该方法进一步包括接收多个类别,其中内容提供者待与类别中的至少一个相关联。该方法进一步包括基于类别的名称将至少一个关键词映射到类别的子集。该方法进一步包括将类别的至少子集中的每一个与概率值相关联,所述概率值表示内容提供者应当与相应类别相关联的可能性,所述概率值使用财务值被赋予权重。该方法进一步包括接收所生成的有关多个类别的规则集,所述规则集被配置用于在识别类别中的一个时使用。该方法进一步包括使用规则集来处理有关内容提供者的数据,所述数据至少包括(i)类别的至少子集中的每一个的概率值;(ii)有关内容提供者的财务数据;(iii)内容提供者与之相关联的地理区域。该方法进一步包括基于对数据的处理为内容提供者选择多个类别中的一个。该方法进一步包括将内容提供者与所选择的类别相关联。实施方式可以提供以下优势中的任何、全部优势或不提供以下优势。可以提供分成类别的改进的分类。基于概率的分类可以被赋予收益权重,以及可以由先前使用训练数据来训练的基于规则的分类进行进一步特定化。可以增加分类的灵活性。在附图和下面的描述中阐述了一个或多个实施例的细节。其它特征和优势从描述和附图、以及从权利要求将是显而易见的。


图1示出了可以为实体识别类别的示例系统。图2示出了可以为实体识别类别的另一个示例系统。图3示出了可以基于已为实体识别的类别来呈现信息的示例用户界面。图4示出了可以执行来为实体识别类别的示例方法。图5是可以结合在本文档中描述的计算机实现的方法使用的计算系统的框图。各附图中相同的参考标记指示相同的元素。
具体实施例方式图1示出了可以为实体识别类别的示例系统100。多个实体可以在系统100中操作,例如实体可以是以下形式的诸如广告主的内容提供者和诸如网页或其它内容的所有者的内容发布者。在一些实施方式中,内容提供者可以操作一个或多个内容提供者系统 102,以及内容发布者可以操作一个或多个内容发布者系统104。可以将任何种类的计算机设备、电子设备或系统包括在系统102和104中,诸如服务器计算机或个人计算机。系统 100中的组件可以使用诸如本地计算机网络或因特网的任何种类的网络106来相互通信。在一些实施方式中,系统100中的一个或多个实体可以参与事务,在所述事务中内容提供者提供待由至少一个发布者发布的内容。例如,诸如广告的内容可以通过网络106 从内容提供者系统102分发用于以内容发布者系统104中的一个或多个的名义发布。在一些实施方式中,内容可以由诸如内容分发者系统108(例如,广告服务器)的第三方暂时或永久保持,并且可以从系统108分发用于发布。例如,当用户系统110向发布者系统104请求媒体内容(例如,网页)时,内容分发者系统108可以将相关联的内容(例如,广告)提供给用户系统110用于连同所请求的内容一起呈现。在下面将描述其中诸如系统100中的内容提供者和/或内容发布者的一个或多个实体可以使用类别目录来进行分类的示例。这样的分类对涉及分类实体的任何人,例如管理在实体间分发内容的个人,可以是有用的。系统100可以包括一个或多个分类器。在一些实施方式中,系统100包括概率分类器112和基于规则的分类器114。这些和其它组件的名称在此被宽泛使用,而不是狭窄使用;例如,概率分类器112在其操作中可以使用一个或多个规则,以及基于规则的分类器 114在分类过程中可以确定或使用一个或多个概率。分类器112和114可以以任何形式,诸如使用软件、硬件、固件或以上组合,来实现。在一些实施方式中,可以使用分类器112和114,以使诸如操作系统102的内容提供者的所选择的实体与诸如来自垂直元目录116的垂直元的一个或多个类别相匹配。垂直元可以是指一个或多个业务分类,诸如有时在市场分析中使用来表示在共同领域中交易的企业和客户的归类词语(例如,消费电子垂直元或化妆品垂直元)。可以使用其它分类。概率分类器112可以为诸如内容提供者的实体确定针对目录116中的垂直元中的至少一个的概率值。概率可以表示内容提供者属于对应垂直元的可能性。例如,概率分类器可以确定实体“Example Company, Inc.(示例公司)”应当被分类为属于“抵押”垂直元的概率。概率可以使用有关实体的信息来确定。在一些实施方式中,概率分类器112可以确定多个概率值,诸如与目录116中的垂直元的至少子集中的每一个相对应的值。基于规则的分类器114可以为实体识别类别,诸如目录116中的垂直元中的一个。 在一些实施方式中,基于规则的分类器114可以使用由概率分类器112确定的一个或多个概率和诸如决策树118的规则集。例如,决策树118可以包括多个决策,以及可以被配置用于通过处理决策中的至少部分来选择目录116中的多个垂直元中的一个。在一些实施方式中,系统100可以包括基于训练数据122来生成决策树118或其它规则的规则组件120。在一些实施方式中,训练数据122可以包括实体到类别中的相应类别一诸如目录116中的垂直元一的映射。可以以多种方式中的任何方式生成诸如决策树118的规则集。在一些实施方式中,可以定义树模型,并且然后可以基于训练数据122来生成树。例如,可以选择树结构,诸如以定义树应当包括多级二元决策。作为另一个示例,可以定义树的延伸区(例如,决策树何时应当结束),诸如在选择多个类别中的一个之前待进行的多个决策中的决策数量。在一些实施方式中,树118中的一个或多个决策可以使用阈值。例如,可以将概率(例如,由概率分类器112确定的概率)与阈值进行比较。可以使用任何种类的迭代过程来生成决策树 118的一个或多个方面。例如,树118的结构可以在初始迭代中选择,并且针对诸如训练数据122的代表性数据测试,以及这样的测试的结果可以用于在另一个迭代中生成树118的另一个结构。作为另一个示例,可以在初始迭代中确定阈值的第一集合,以及可以在一个或多个额外迭代中通过反馈过程对值中的至少一个进行精化。基于规则的分类器114在系统100中可以用于一个或多个用途。在一些实施方式中,概率分类器112可能具有在一个或多个方面将实体错误分类的倾向。例如,分类器114 可能频繁为实际上未参与娱乐业或仅仅参与较小程度的实体选择“娱乐”垂直元。在概率确定中这样的特性可以是概率分类器112如何被配置的人为结果,以及可以取决于多个因素,其可以使解决该问题困难或不现实。在一些实施方式中,可以将基于规则的分类器114 与概率分类器112结合使用。例如,可以选择由基于规则的分类器114使用的规则集(例如,决策树118)中的阈值中的至少一个,以降低或消除所讨论的关于类别的倾向。可以为给定实体,诸如为运行系统102的内容提供者,选择至少一个类别(例如, 目录116中的垂直元中的一个)。这样的选择可以用于一个或多个用途,诸如用来向用户输出相关信息。在一些实施方式中,系统100可以包括可以使用一个或多个类别选择的前端组件124。例如,前端组件IM可以呈现与所选择的类别有关的信息作为表征实体的方式。图2示出了可以为实体识别类别的另一个示例系统200。在系统200中,可以识别关于实体的一个或多个信息部分,诸如与内容提供者相关联的关键词202。在一些实施方式中,作为参加内容分发程序的一部分,内容提供者可以自识别关键词。例如,广告主可以向内容分发者系统108(图1)登记对一个或多个关键词的出价,使得广告主的广告可以被考虑用于在与关键词有关的语境下发布。可以识别有关实体的财务信息204。例如,这可以包括收益数据,诸如有关广告主花费在特定关键词上的金额的信息。系统200可以包括基础分类器206。在一些实施方式中,基础分类器可以被配置为使用诸如垂直元目录116(图1)的类别集来对诸如内容提供者或内容分发活动的实体进行分类。在一些实施方式中,基础分类器206可以将关键词202映射到部分或全部垂直元,并且选择预定数量的垂直元。例如,诸如通过选择具有最大权重的那些垂直元,垂直元中的三个可以被选择为最能代表实体。基础分类器206可以将用于特定实体的多个关键词映射到相应垂直元。可以合并为关键词选择的相应垂直元(例如,可以求其相应概率的平均值)以形成实体的单一归类。 在一些实施方式中,可以基于财务数据204,诸如基于花费在各个关键词上的金额,来对为实体选择的垂直元赋予权重。例如,在计算分类时,可以给予关于对内容提供者的或分发活动的花费的相对较大部分负责的关键词的垂直元相对较大的权重。在一些实施方式中,基础分类器206可以包括概率分类器112(图1)。在一些实施方式中,基础分类器206的输出可以包括一个或多个赋予权重的垂直元208,诸如与权重(例如在0和1之间的数字)相关联的至少一个分类器词语(例如,垂直元名称)。
系统200可以包括赋予花费权重规则组件210。在一些实施方式中,组件210可以提供用于定义若干类别之间,诸如在三个赋予收益权重的垂直元之间,的主类别的策略。例如,关于系统200中的其它组件,组件210可以作为离线程序运行,诸如以由Mattworks公司开发的MATLAB环境中的程序的形式。赋予花费权重规则组件210可以被配置用于多维特征空间上的多类分类。在一些实施方式中,η维特征可以用于映射到任何m维。例如,垂直元目录116可以包括30个垂直元。作为另一个示例,可以识别额外特征,包括但不限于实体的季度花费、实体的总花费、 用于实体的关键词的数量以及实体的促销国家。因此,34维特征空间(即,n = 34)可以用于成为任何30维(即,m = 30)的分类。在一些实施方式中,特征维中的一个或多个,诸如实体国家,可以是分类的。例如,可以给预定数量的最高位国家(例如,九个国家)每一个分配一个类,以及可以将剩余国家聚组在公有类中。在一些实施方式中,特征维中的一个或多个可以是离散或连续变量。例如,关键词计数可以是离散变量和/或总花费可以是连续变量。在一些实施方式中,赋予花费权重规则组件210可以包括基于规则的分类器(图 1)。例如,组件210可以使用部分或全部训练数据122来定义适当策略。在一些实施方式中,赋予花费权重规则组件210可以在新的或经修改的训练数据集变得可用时,诸如在人类分类者将一个或多个实体映射到了垂直元目录116时,被触发。赋予花费权重规则组件210可以输出可以在为实体选择类别时使用的规则集 212。在一些实施方式中,该规则集可以包括决策树。例如,组件210可以使决策树分裂并且生长以优化给定实体是特定类别的成员的已确定概率。作为另一个示例,训练数据122(图 1)可以用于修剪决策树,诸如以避免过拟合。在一些实施方式中,可以使用诸如“分类回归树”(CART)的特征。在这样的实施方式中,赋予花费权重规则组件210可以包括或基于CART分类器。例如,可以用定制的修剪程序(例如,停止规则)构建CART模型。作为另一个示例,可以使用十折交叉验证(10-fold cross validation)来计算CART模型的误差估计。在一些实施方式中,规则集212包括一维规则的分类决策树,其用于将赋予收益权重的垂直元(例如,三个)集映射到用于实体的一个垂直元中。例如,这可以在系统200 中提供更大归纳能力的益处,诸如以允许从基础分类器206修剪“坏的垂直元”和/或其它
系统误差。在生成规则集212时,可以考虑财务数据。在一些实施方式中,可以在构建CART模型时复制数据,诸如以使复制量与花费金额成比例。例如,可能过采样与相对较高的总花费和/或季度花费水平相对应的数据。作为另一个示例,可能对与相对较低的总花费和/或季度花费水平相对应的数据采样不足。在一些实施方式中,基于收益的额外训练数据点可能易于使最终输出(例如,对一个或多个类别的选择)偏向于较高花费实体(例如,内容提供者),并且提高有关这些实体的精确性。下面在附录I中展现了规则集212—在此为决策树一的示例。系统100可以包括主垂直元分类器214。在一些实施方式中,分类器可以将赋予收益权重的类别集(例如,赋予权重的垂直元208)静态地映射到用于实体的单个主垂直元中。例如,分类器214可以使用规则集212 (诸如通过加载由组件210生成的CART分类树)来从基础分类器206选择赋予权重的类别中的一个。图3示出了可以基于已为实体识别的类别来呈现信息的示例用户界面300。在一些实施方式中,前端组件124(图1)可以诸如向系统100中的动作者生成用户界面300。在一些实施方式中,用户界面300可以用于管理客户关系,诸如用于监视和/或跟踪诸如广告活动的内容分发程序中的参与者。用户界面300可以包括“名称”区域302,其中可以呈现一个或多个实体的标识符,诸如广告主和/或另一个内容提供者的名称。用户界面300可以包括“垂直元”区域304,其中可以指示为实体识别的类别,诸如来自目录116的垂直元。 用户界面300可以包括呈现与分配给实体的类别有关的信息的一个或多个区域,诸如“季节性”区域306。例如,从事特定垂直元的公司(例如,税务筹划顾问或鲜花零售商)在其业务和/或其它活动中可能具有季节性发生波动。在一些实施方式中,可以向用户输出这样的季节性(例如,“该实体的业务在情人节附近可能达到最高峰”的信息)。在一些实施方式中,可以在没有明确指示所选择的垂直元的情况下输出相关信息(例如,季节性区域 306)。用户界面300可以包括“搜索”控件308,通过其用户可以使用一个或多个标准来搜索实体,以及可以通过将信息填充在区域302-306中的一个或多个中来呈现这样的搜索的结果。用户界面300可以包括“联系”控件310,通过其用户可以发起与一个或多个实体的联系,诸如经由电子邮件或电话。例如,当看见了季节性区域306中的信息时,诸如销售代表的用户可以联系实体以确保其有关旺季的需求得到满足。图4示出了可以执行来为实体识别类别的示例方法400。方法400可以由例如系统100和/或200中、执行存储在计算机可读介质中的指令的处理器来执行。在一些实施方式中,可以以另一种顺序执行步骤中的一个或多个;作为另一个示例,可以执行更多或更少步骤。步骤410包括为多个类别中的至少子集中的每一个确定概率值。概率值可以表示识别的实体属于相应类别的可能性并且可以使用关于实体的信息来确定。例如,概率分类器112和/或基础分类器可以为诸如内容提供者或内容发布者的特定实体生成赋予权重的垂直元208。子集可以包括一个或多个类别。步骤420包括为实体记录多个类别中的一个,类别使用概率值和基于例如训练数据的用于多个类别的规则集来识别。例如,基于规则的分类器114和/或主垂直元分类器 214可以从目录116选择一个垂直元来与特定实体相关联。步骤430包括基于为实体对类别的识别来呈现信息。例如,前端组件IM可以生成可以呈现季节性区域306的用户界面300。图5是通用计算机系统500的示意图。根据一个实施方式,系统500可以用于结合先前描述的任何计算机实现的方法描述的操作。系统500包括处理器510、存储器520、 存储设备530和输入/输出设备M0。组件510、520、530和MO中的每一个使用系统总线 550互连。处理器510能够处理用于在系统500内执行的指令。在一个实施方式中,处理器 510是单线程处理器。在另一个实施方式中,处理器510是多线程处理器。处理器510能够处理存储在存储器520中或存储设备530上的指令以在输入/输出设备540上显示用于用户界面的图形信息。存储器520存储系统500内的信息。在一个实施方式中,存储器520是计算机可读介质。在一个实施方式中,存储器520是易失性存储器单元。在另一个实施方式中,存储器520是非易失性存储器单元。
存储设备530能够为系统500提供海量存储。在一个实施方式中,存储设备530 是计算机可读介质。在各种不同的实施方式中,存储设备530可以是软盘设备、硬盘设备、 光盘设备或带设备。输入/输出设备540为系统500提供输入/输出操作。在一个实施方式中,输入/ 输出设备540包括键盘和/或指示设备。在另一个实施方式中,输入/输出设备540包括用于显示图形用户界面的显示单元。可以在数字电子电路中,或者在计算机硬件、固件、软件或者在它们的组合中实现所描述的特征。可以在有形地包括在信息载体中一例如,在机器可读存储设备或传播信号中一的、用于可编程处理器执行的计算机程序产品中实现装置;以及可以由执行指令程序来执行所描述的实施方式的功能的可编程处理器通过操作输入数据并且生成输出来执行方法步骤。可以在包括至少一个可编程处理器的可编程系统上可执行的一个或多个计算机程序中有利地实现所描述的特征,所述至少一个可编程处理器被耦接以从数据存储系统、 至少一个输入设备和至少一个输出设备接收数据和指令以及将数据和指令传送到数据存储系统、至少一个输入设备和至少一个输出设备。计算机程序是可以在计算机中直接或间接使用来执行某一动作或引起某一结果的指令集。计算机程序可以以任何形式的编程语言编写,所述编程语言包括编译或解释语言,并且其可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序或适于在计算环境中使用的其它单元。用于执行指令程序的适当处理器包括例如通用和专用微处理器两者,以及任何种类的计算机的唯一处理器或多个处理器中的一个。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的主要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。通常,计算机还包括用于存储数据文件的一个或多个海量存储设备,或可操作地耦接以与所述一个或多个海量存储设备通信;这样的设备包括磁盘,诸如内部硬盘和可移动盘;磁光盘;以及光盘。适于有形地包括计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,包括例如半导体存储器设备,例如EPR0M、 EEPROM和闪存设备;磁盘,诸如内部硬盘和可移动盘;磁光盘;以及⑶-ROM和DVD-ROM盘。 处理器和存储器可以由ASIC (专用集成电路)补充,或合并入ASIC。为了提供与用户的交互,可以在具有下述的计算机上实现特征用于向用户显示信息的显示设备,例如CRT(阴极射线管)或LCD(液晶显示)监视器,以及用户通过其可以向计算机提供输入的键盘和指示设备,例如鼠标或跟踪球。可以在包括诸如数据服务器的后端组件、或者包括诸如应用服务器或因特网服务器的中间件组件、或者包括诸如具有图形用户界面或因特网浏览器的客户端计算机的前端组件、或者它们的任何组合的计算机系统中实现特征。系统的组件可以通过诸如通信网络的任何形式或介质的数字数据通信连接。通信网络的示例例如包括LAN、WAN以及形成因特网的计算机和网络。计算机系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过诸如所描述的网络之一的网络交互。客户端和服务器的关系依靠在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。已经描述了多个实施例。然而,将理解的是,在不背离本公开的精神和范围的情况下,可以进行各种修改。因此,其它实施例在权利要求的范围内。
附录 ICART模型描述和输出自变量Xl 国家(例如,根据国家代码)x2 关键词计数x3 总花费(USD)x4 季度花费(USD)x5 x34 从最小到最大排序的用于垂直元的收益权重(例如,分类器112或206 的输出)
Id x5 x6 x7 x8 x9 xlO xll xl2 xl3 xl4 垂直 2 3 4 5 7 8 11 12 13 14

Id xl5 xl6 xll xl8 xl9 x20 x21 x22 x23 x24 垂直 15 16 18 19 20 29 44 45 47 52

Id x25 x26 x27 x28 x29 x30 x31 x32 x33 x34 垂直 66 67 71 174 285 299 397 439 533 570
元CART 输出用于分类的决策树1 if x26 < 0. 156561 then node 2 else node 32 if x9 < 0. 370092 then node 4 else node 53 if x26 < 0. 657022 then node 6 else node 74 if xl7 < 0. 495845 then node 8 else node 95 if x9 < 0. 823663 then node 10 else node 116 if xl5 < 0.0685697 then node 12 else node 137 if x21 < 0.0848807 then node 14 else node 158 if x8 < 0. 521697 then node 16 else node 179 if xl7 < 0. 736217 then node 18 else node 1910 if x23 < 0.498586 then node 20 else node 2111 class = 712 if x20 < 0. 257736 then node 22 else node 2313 if x20 < 0. 0258419 then node 24 else node 2514 class = 67







15if x2 < 7168.5 then node 26 else node 27
16if x24 < 0.354713 then node 28 else node 29
17if x8 < 0. 716763 then node 30 else node 31
18if x2 < 80663 then node 32 else node 33
19if xl7 < 0. 925121 then node 34 else node 35
20if xl8 < 0. 213272 then node 36 else node 37
21 class = 47
22
23
24
if xl2 < 0, if xl in{l if x29 < 0,
335248 then node 38 else node 39 3 4 6}then node 40 else node 41 230442 then node 42 else node 43
25class = 29
26class = 44
27class = 52
28if xll < 0. 331887 then node 44 else node 45
29class = 52
30if x2 < 7057. 5 then node 46 else node 47
31class = 5
32if x7 < 0. 0829784 then node 48 else node 49
33if xl = 1 then node 50 else node 51
34if x2 < 77348 then node 52 else node 53
35class = 18
36ifx20 < 0. 371657 then node 54 else node 55
37if x3 < 3. 85033e+06 then node 56 else node 57
38if xl9 < 0.330368 then node 58 else node 59
39class = 12
40class = 29
41class = 67
42class = 67
43class = 285
44if x23 < 0. 57222 then node 60 else node 61
45if x7 < 0.114347 then node 62 else node 63
46if xl3 < 0.330393 then node 64 else node 65
47if x7 < 0.255785 then node 66 else node 67
48if xl in{l 2 3 7 8 10}then node 68 else node 69
49class = 4
50class = 11
51class = 285
52class = 18
53class = 200118]54class = 70119]55class = 290120]56class = 70121]57class = 190122]58if x21 < 0.203319 then node 70 else node 710123]59class = 200124]60if x3 < 4. 08266e+07 then node 72 else node 730125]61if x23 < 0.730036 then node 74 else node 750126]62if xll < 0.537014 then node 76 else node 770127]63if xl in{l2 8 10}then node 78 else node 790128]64if x24 < 0.10869 then node 80 else node 810129]65if x2 < 1310 then node 82 else node 830130]66if xl in{l2 5 7}then node 84 else node 850131]67class = 40132]68class = 180133]69if x2 < 39894 then node 86 else node 870134]70if xl3 < 0.193039 then node 88 else node 890135]71class = 440136]72if x22 < 0.442255 then node 90 else node 910137]73class = 50138]74if xl2 < 0.179846 then node 92 else node 930139]75class = 470140]76if x27 < 0.189842 then node 94 else node 950141]77class = 110142]78class = 40143]79class = 110144]80class = 50145]81if xl in{l3 6 8 10}then node 96 else node 970146]82class = 130147]83class = 50148]84if x32 < 0.117921 then node 98 else node 990149]85class = 50150]86if x21 < 0.268462 then node 100 else node 1010151]87class = 520152]88if xl7 < 0.209712 then node 102 else node 1030153]89class = 130154]90if x7 < 0.35475 then node 104 else node 1050155]91if x22 < 0711517 then node 106 else node 1070156]92if x2 < 105 then node 108 else node 109
93 class = 1294 if x4 < 368742 then node 110 else node 11195 class = 7196 class = 597 class = 5298 class = 1999 class = 18100 class = 18101 class = 44102 if x23 < 0. 262412 then node 112 else node 113103 class = 18104 if xl8 < 0.513483 then node 114 else node 115105 class = 4106 if x21 < 0.210351 then node 116 else node 117107 class = 45108 class = 18109 class = 47110 if xl2 < 0. 433287 then node 118 else node 119111 class = 11112 if x7 < 0. 569093 then node 120 else node 121113 class = 47114 if x20 < 0.473106 then node 122 else node 123115 if x22 < 0.158422 then node 124 else node 125116 if x6< 0.0777122 then node 126 else node 127117 if x21 < 0.470751 then node 128 else node 129118 if x3 < 1.47723e+06 then node 130 else node 131119 if x3 < 5. 20398e+06 then node 132 else node 133120 if xl4 < 0.396659 then node 134 else node 135121 class = 4122 if xl2 < 0.470398 then node 136 else node 137123 if xl7 < 0. 306859 then node 138 else node 139124 if xl8 < 0.824979 then node 140 else node 141125 class = 19126 class = 45127 if x3 < 1. 93593e+06 then node 142 else node 143128 if x3 < 1. 44848e+06 then node 144 else node 145129 class = 45130 class = 11131 class = 8
132if xl in{l4 5 6 8}then node 146 else node 147
133class = 11
134if xll < 0.09162 then node 148 else node 149
135class = 14
136if x21 < 0.385516 then node 150 else node 151
137if xl2 < 0.821368 then node 152 else node 153
138class = 29
139class = 18
140if x4 < 104730 then node 154 else node 155
141if x27 < 0.019163 then node 156 else node 157
142class = 2
143class = 29
144if x4 < 2953.45 then node 158 else node 159
145class = 44
146class = 12
147ifx3 < 361231 then node 160 else node 161
148if x9 < 0.384375 then node 162 else node 163
149class = 11
150if xl4 < 0.452462 then node 164 else node 165
151class = 44
152if x7 < 0.—59118 then node 166 else node 167
153class = 12
154if x3 < 1. 58799e+06 then node 168 else node 169
155class = 19
156class = 19
157class = 13
158class = 44
159class = 45
160if x2 < 653 then node 170 else node 171
161class = 11
162if x24 < 0262085 then node 172 else node 173
163class = 7
164if xl3 < 032757 then node 174 else node 175
165if x30 < 028577 then node 176 else node 177
166if xl8 < 0247799 then node 178 else node 179
167class = 4
168if xl3 < 000967496 then node 180 else node 181
169class = 18
170class = 11
171class = 12
172if x8 < 0. 281417 then node 182 else node 183
173class = 52
174if x30 < 0. 258444 then node 184 else node 185
175if xl3 < 0.779286 then node 186 else node 187
176class = 14
177class = 299
178if xll < 0. 0620939 then node 188 else node 189
179class = 19
180ifxl9 < 0. 123657 then node 190 else node 191
181class = 13
182class = 67
183class = 5
184ifx33 < 0. 118834 then node 192 else node 193
185if xl in{l 2 3 5 6 7 8}then node 194 else node
186if x33 < 0. 326535 then node 196 else node 197
187class = 13
188if xl7 < 0. 114527 then node 198 else node 199
189if xl2 < 0. 640493 then node 200 else node 201
190class = 19
191class = 20
192if xlO < 0. 508978 then node 202 else node 203
193if x33 < 0. 544036 then node 204 else node 205
194if xl3 < 0. 0837794 then node 206 else node 207
195if x30 < 0.620821 then node 208 else node 209
196if x32 < 0. 085737 then node 210 else node 211
197class = 533
198class = 12
199if x4 < 34722. 4 then node 212 else node 213
200class = 11
201class = 12
202if x32 < 0. 33374 then node 214 else node 215
203class = 8
204if x8 < 0. 00714825 then node 216 else node 217
205class = 533
206if xl5 < 0. 248854 then node 218 else node 219
207if x3 < 709455 then node 220 else node 221
208class = 2
209if x30 < 0. 818431 then node 222 else node 223
16210class = 13
211class = 439
212class = 18
213class = 12
214if x27 < 0.445613 then node 224 else node 225
215if x30 < 0. 0232432 then node 226 else node 227
216class = 533 217class = 5
218class = 299
219if xl in{1 2 3 5 7 8}then node 228 else node 229
220class = 299
221class = 13
222class = 299
223class = 2
224if xl9 < 0. 0842646 then node 230 else node 231
225class = 71
226class = 439
227class = 2
228class = 299
229class = 52
230if xl5 < 0.792343 then node 232 else node 233
231if x3 < 1. 43634e+06 then node 234 else node 235
232if x34 < 0. 432739 then node 236 else node 237
233if x20 < 0. 00676158 then node 238 else node 239
234if x4 < 142308 then node 240 else node 241
235if x3 < 2. 28536e+06 then node 242 else node 243
236if x6 < 0. 343384 then node 244 else node 245
237class = 570
238if x26 < 2. 31392e_13 then node 246 else node 247
239class = 29
240class = 20
241class = 18
242if x4 < 177429 then node 248 else node 249
243class = 7
244if x25 < 0. 735451 then node 250 else node 251
245if xl4 < 0.037943 then node 252 else node 253
246if x4 < 44870.6 then node 254 else node 255
247if xl in{l 3 4 7 10}then node 256 else node 257
248class = 47
CN 102216925 A
说明书14/18页249 if Xl = 1 then node 258 else node 259250 if x29 < 0. 376623 then node 260 else node 261251 class = 66252 if x6 < 0. 904535 then node 262 else node 263253 if x2 < 782 then node 264 else node 265254 if xl7 < 0.0111276 then node 266 else node 267255 class = 15256 class = 67257 class = 15258 class = 45259 class = 18260 if x9 < 0.127178 then node 268 else node 269261 if x29 < 0. 720004 then node 270 else node 271262 if x8 < 0.0786027 then node 272 else node 273263 if x4 < 224146 then node 274 else node 275264 class = 3265 class = 2266 class = 15267 class = 2268 if x20 < 0. 107796 then node 276 else node 277269 if x3 < 2. 68169e+06 then node 278 else node 279270 if xl4 < 0.0382579 then node 280 else node 281271 class = 285272 if x30 < 0. 0283009 then node 282 else node 283273 if x24 < 0. 0668307 then node 284 else node 285274 if xl9 < 0.0325977 then node 286 else node 287275 class = 2276 if xl6 < 0. 487338 then node 288 else node 289277 if xl5 < 0. 486436 then node 290 else node 291278 if x9 < 0.366797 then node 292 else node 293279 class = 13280 if xll < 0.0434011 then node 294 else node 295281 class = 14282 if x3 < 1.79108e+06 then node 296 else node 297283 class = 2284 if Xl in{l 2 4 5 7}then node 298 else node 299285 class = 52286 class = 3287 class = 52
288 if xl7 < 0. 188053 then node 300 else node 301289 class = 16290 if x23 < 0. 249635 then node 302 else node 303291 class = 29292 class = 7293 class = 45294 class = 285295 class = 11296 if x25 < 0. 0849167 then node 304 else node 305297 if x6 < 0. 816804 then node 306 else node 307298 class = 5299 class = 3300 if x3 < 5. 75773e+06 then node 308 else node 309301 if x23 < 0. 367225 then node 310 else node 311302 if xl5 < 0. 0297698 then node 312 else node 313303 if xl = 4 then node 314 else node 315304 if x24 < 0.0109364 then node 316 else node 317305 class = 66306 class = 3307 class = 2308 if xl8 < 0. 358197 then node 318 else node 319309 class = 45310 if xl4 < 0. 30828 then node 320 else node 321311 if xl in{l 2 4 10}then node 322 else node 323312 class = 4313 if xl in{l 2 3 4 6 8}then node 324 else node 325314 class = 47315 class = 15316 if x7 < 0. 0529852 then node 326 else node 327317 class = 52318 if x8 < 0. 250055 then node 328 else node 329319 class = 19320 if x34 < 0.299071 then node 330 else node 331321 class = 14322 class = 47323 class = 14324 if xl in{l 8}then node 332 else node 333325 class = 533326 if xl8 < 0.346103 then node 334 else node 335327class=4328if xl2 < 0. 00523925 then node 336 else node 337329if x3 < 1.54296e+06 then node 338 else node 339330class=18331class=570332class=29333class=19334if x34 < 0. 24078 then node 340 else node 341335class=19336if x24 < 0. 0618855 then node 342 else node 343337if x7 < 0. 269018 then node 344 else node 345338if xlin{l 5 6 10}then node 346 else node 347339class=18340if x6 < 0. 744853 then node 348 else node 349341class=570342if x25 < 0.725171 then node 350 else node 351343class=52344if xll < 0.145951 then node 352 else node 353345class=4346class=5347if x7< 0. 074593 then node 354 else node 355348if xlin{1 2 3 7 8 9 10}then node 356 else node 349class=3350if x3< 312875 then node 358 else node 359351class=7352if x4< 40808. 4 then node 360 else node 361353class=11354if xlin{2 3 4 8}then node 362 else node 363355class=4356if x3< 602261 then node 364 else node 365357class=16358if x28 < 0.99751 then node 366 else node 367359if xlO < 0. 204898 then node 368 else node 369360class=12361class=15362if x3< 579398 then node 370 else node 371363class=13364if xlin{1 2 3 8 9}then node 372 else node 373365class=533
366if x25 < 0.389004 then node 374 else node375
367class = 174
368class = 15
369class = 8
370if x2 < 95then node 376 else node 377
371class = 67
372if x3 < 56290.8 then node 378 else node 379
373class = 2
374if x21 < 0.073466 then node 380 else node381
375class = 66
376class = 12
377class = 5
378class = 3
379class = 18
380if xl5 < 0.329107 then node 382 else node383
381class = 44
382class = 14
383class = 1权利要求
1.一种用于将实体与类别相关联的计算机实现的方法,所述方法包括为多个类别中的至少子集中的每一个确定概率值,所述概率值表示识别的实体属于相应类别的可能性并且使用关于所述实体的信息来确定;以及为所述实体记录所述多个类别中的一个类别,所述类别使用所述概率值和用于所述多个类别的规则集来识别。
2.根据权利要求1所述的计算机实现的方法,其中所述实体是被识别为加入在程序中的内容提供者,在所述程序中所述内容提供者提供待由至少一个发布者发布的内容,以及其中所述概率值使用与所述内容提供者相关联的至少一个关键词以及与所述内容提供者相关联的至少一个财务值来确定。
3.根据权利要求2所述的计算机实现的方法,其中确定所述概率值包括 将所述至少一个关键词至少映射到所述多个类别的所述子集;用所述至少一个财务值对至少所述子集赋予权重,其中所述财务值已被分配给对应关键词;以及选择预定数量的所述类别作为所述子集。
4.根据权利要求1所述的计算机实现的方法,其中所述规则集基于训练数据。
5.根据权利要求4所述的计算机实现的方法,其中所述规则集包括决策树,所述决策树被配置用于通过处理包括在所述决策树中的多个决策中的至少部分来选择所述多个类别中的一个。
6.根据权利要求5所述的计算机实现的方法,进一步包括使用所述训练数据来生成所述决策树,其中所述训练数据包括实体到所述多个类别中的一个或多个的映射。
7.根据权利要求6所述的计算机实现的方法,其中生成所述决策树进一步包括 使用有关所述实体的财务数据对所述映射赋予权重。
8.根据权利要求7所述的计算机实现的方法,其中对所述映射赋予权重进一步包括 基于与所述映射的至少子集相对应的所述财务数据来过采样所述映射的所述子集。
9.根据权利要求5所述的计算机实现的方法,其中生成所述决策树包括 选择用于所述决策树的结构;确定所述决策树的延伸区,包括在选择所述多个类别中的所述一个之前待进行的所述多个决策中的决策数量;以及确定待在所述多个决策中使用的阈值。
10.根据权利要求8所述的计算机实现的方法,其中所述决策树被迭代生成。
11.根据权利要求6所述的计算机实现的方法,其中所述内容提供者从事于广告,以及其中所述多个类别包括所述内容提供者待与之匹配的垂直元。
12.根据权利要求10所述的计算机实现的方法,其中生成所述决策树进一步包括识别所述垂直元中的至少一个,对于所述至少一个垂直元所述概率值的所述确定具有将所述垂直元不恰当地分配给所述内容提供者的倾向;以及选择所述阈值中的至少一个,使得降低所述倾向。
13.根据权利要求1所述的计算机实现的方法,进一步包括 基于已为所述实体识别的所述类别向用户呈现信息。
14.根据权利要求12所述的计算机实现的方法,其中所述信息指示与所述类别相关联的季节性。
15.一种计算机系统,包括第一分类器,所述第一分类器为多个类别中的至少子集中的每一个类别确定概率值, 所述概率值表示识别的实体属于相应类别的可能性并且使用关于所述实体的信息来确定; 以及第二分类器,所述第二分类器使用所述概率值和用于所述多个类别的规则集来为所述实体识别所述多个类别中的一个类别。
16.根据权利要求14所述的计算机系统,其中所述规则集基于训练数据。
17.根据权利要求16所述的计算机系统,其中所述规则集包括决策树,所述决策树被配置用于通过处理包括在所述决策树中的多个决策中的至少部分来选择所述多个类别中的一个,所述计算机系统进一步包括规则组件,所述规则组件使用所述训练数据来生成所述决策树,其中所述训练数据包括实体到所述多个类别中的一个或多个的映射。
18.根据权利要求17所述的计算机系统,其中所述规则组件使用有关所述实体的财务数据对所述映射赋予权重,包括基于与所述映射的至少子集相对应的所述财务数据来过采样所述映射的所述子集。
19.根据权利要求14所述的计算机系统,进一步包括前端组件,所述前端组件基于所述第二分类器已为所述实体识别了所述类别而向用户呈现信息。
20.一种用于将内容提供者与类别相关联的计算机实现的方法,所述方法包括将内容提供者识别为加入在程序中,在所述程序中所述内容提供者提供待由至少一个发布者发布的内容;接收有关所述内容提供者的至少一个关键词和有关所述关键词的至少一个财务值;接收多个类别,其中所述内容提供者待与所述类别中的至少一个相关联;基于所述类别的名称将所述至少一个关键词映射到所述类别的子集;将所述类别的至少所述子集中的每一个与概率值相关联,所述概率值表示所述内容提供者应当与相应类别相关联的可能性,所述概率值使用所述财务值被赋予权重;接收所生成的有关所述多个类别的规则集,所述规则集被配置用于在识别所述类别中的一个时使用;使用所述规则集来处理有关所述内容提供者的数据,所述数据至少包括(i)所述类别的至少所述子集中的每一个的所述概率值;(ii)有关所述内容提供者的财务数据; (iii)所述内容提供者与之相关联的地理区域;基于对所述数据的所述处理为所述内容提供者选择所述多个类别中的一个;以及将所述内容提供者与所选择的类别相关联。
全文摘要
除其它所公开的主题外,一种用于将实体与类别相关联的计算机实现的方法包括为多个类别中的至少子集中的每一个确定概率值,所述概率值表示识别的实体属于相应类别的可能性并且使用关于实体的信息来确定。该方法包括使用概率值和基于训练数据的用于多个类别的规则集来为实体识别多个类别中的一个。
文档编号G06F17/40GK102216925SQ200980145280
公开日2011年10月12日 申请日期2009年9月14日 优先权日2008年9月15日
发明者崔贤影, 武庆, 维维克·拉古纳坦, 裴忠顺 申请人:谷歌公司

最新回复(0)