J9集团国际站

J9集团国际站思想力
J9集团国际站思想力
第118期 基于天然说话处置和行业知识图谱的实时市场反馈机造钻研

郑晓娜 等

一、目前市场反馈机造存在的问题

随着新技术的急剧利用遍及、数据的发作以及信息流动越发急剧,越来越多的新型贸易模式出现并迅速发展,如新零售、无人商店、全渠路零售等 。新型贸易模式的催生带来数据非结构化多维度的变动趋向和对信息时效性的更高要求 。1所谓时效性,是指信息仅在一按功夫段内对决策拥有价值 。相较于传统的贸易模式,新型贸易模式更为强调这一点 。例如,在全渠路零售模式下,消费者能够选择在线上或线下肆意一个渠路履历、采办和取货 。该模式在拓宽消费者的采办渠路和履历渠路的同时,也对信息的时效性提出了更高的要求:渠路治理者必要凭据消费者的分歧选择柔性造订库存战术,实时发送补货信息,动态形成需要预测 。2所谓非结构化,体此刻新型贸易模式下的数据不仅仅是以固定体式或有固定长度的大局出现(即,结构化数据的大局,例见表1),而更多地阐发为语音、图像、无固定体式的文本,如消费者对于某商品的评论等多种大局,以上不定长或无固定体式的数据被界说为非结构化数据 。3)此表,随着获守信息渠路的多样化和生涯水平的提升,消费者不再单一地关注产品价值,而是更为宽泛地关注质量、品牌、口碑、售后服务等更多维度的信息,体现出数据向多维度发展的趋向 。不难看出,新型贸易模式下的数据大局纷繁复杂,其特有的性质和对时效性、非结构化、多维度的要求将对数据分析和处置步骤提出更高挑战 。

然而,在经典和通用的步骤里,多选取统计学和计量经济学的传统步骤对行业情况进行分析,选取财政报表分析来衡量公司的经营和治理情况 。通过度析发现,传统步骤已经显然不能满足新型贸易模式的要求 。尤其在衡量和表白两个主题经济主体:市场和公司时,出现了越来越显著的偏离和延长,重要体此刻如下三个方面:

第一,滞后性 。传统步骤以处置静态数据(即,在很长一段功夫内不会变动的数据)为主 。难以对急剧变动的市场和公司经营情况进行统计分析,出现了公司难于相识市场、当局难于分析行业、消费者难于相识商品等情况 。由于决策往往对时效性要求很高,传十足计分析的了局逐步成为参考绩分之一 。在整个决策过程中,人的经验、更多的信息和越发实时反馈的机造,成为关键成分 。

第二,单方面性 。传统步骤侧沉于处置结构化数据,难以处置非结构化的语音、图像、无固定体式的文本等数据;受造于工具和步骤,传统步骤难以处置数据整个,而更多地只能通过在整个中抽取一部门作为样本,进行分析 D芄凰,传统步骤对传统经济状态的表白更为正确,对于共享经济、电子商务等新型贸易模式的表白欠缺 。因而,传统的步骤不成预防线产生了私见和单方面性 。

第三,降维性 。在市场和公司的持久交互中,逐步形成了以价值为主体的买卖机造 。价值综合体现了商品的质量、品牌、口碑、售后服务等多维度的信息,起到了降维的作用 。在传统的步骤中,也选择价值作为沉要指标,辅以买卖量、利润率等指标,试图从这些降维后的指标中还原复杂经济行为中各个决策环节 。在这个过程中,信息经历了降维和还原的过程,消费者的定见、态度等关键信息却在这个过程中流失,难以还原 。

时至今日,以电子商务为代表的经济体已经具备高度数字化的特点,能够很大水平地保留经济行为(例如,消费者的消费行为、企业的出产和营销行为等)的全过程数据 。同时,电子商务公司推出了以“消费者线上评价、客服在线互动”为重要大局的市场反馈机造,成立起消费者和电商企业的互动关系,实现了“出产经营在市场产生信息,并反馈到出产经营中去”的设计初衷 。上述两个机造固然在具体品类的商品买卖过程中得到宽泛利用并获得优良成效,但对市场和公司进行综合分析时,依然存在单方面性和降维性的问题 。

上述分析揭示了新型贸易模式下的企业普遍面对的难题:若何在较幼的成本价值下,最大限度地保留信息的全貌、抽取有效信息,并实现对市场的急剧响应和反 ?

本文基于人为智能技术,提出了一种实时市场反馈机造 。该机造能够在较幼的资源价值下,训练得到正确率较高的预测模型,做到对市场数据的全貌获取、抽取有效信息,并实现对决策的实时支持和对市场的急剧响应 。

 

二、基于人为智能技术的实时市场反馈机造

近年来,出现了大量基于商品评价、基于大数据处置步骤的市场反馈机造的钻研,受限于天然说话处置能力的不及,以及由于样本数据过少所导致的单方面性,对市场和公司的分析表白尚未获得有力的进展 。本汇报选取了基于天然说话处置和行业知识图谱的人为智能技术,成立了一种实时的市场反馈机造 。具体的思路是:使用便捷和受多宽泛的反馈渠路,综合海量的网络评价数据、舆情数据、客服数据、调研问卷数据,选取人为智能技术进行分析,并与企业的经营情况和关键指标进行关联匹配,以期为其成立实时的市场反馈机造,服务于企业和行业的综合研判分析 。

本文中钻研的根基技术框架如图1所示 。

4CE5CEC32A6D3879A9CD0C4143C_F8544A57_7D60

1. 根基技术框架

该框架涉及数据采集技术、天然说话处置技术、知识图谱等大数据和人为智能技术,从网络的数据中自动化抽取出行业知识,再进行各类利用层的市场分析 。选取图1中自底向上的分析过程,具体分析步骤如下:

第一,数据采集:首先设定分析的指标,可所以企业的品牌、产品品类或者具体的产品,凭据分析指标设计互联网公开数据采集的关键词以及数据采集的渠路,蕴含微博、论坛、电商、APP等等,并设计对应的调查问卷 。本课题将选取北京百分点信息科技有限公司成熟的数据采集软件来获取互联网公开数据,同时选取该公司的“乐调查”软件来获取调研数据 。

第二,天然说话处置:采集回来的数据中蕴含大量的非结构化文本数据,必要结合天然说话处置技术 。即,从文本中自动化地抽取出分析的对象(品牌、品类或者具体的产品)、其对应的属性(某一方面或者某一话题),以及消费者对该属性的感情(蕴含正面”“中性负面) 。例如针对文本华为P30Pro的拍照职能真的很清澈,抽取出来的实体就是“P30Pro”、属性是拍照职能、属性上的感情是正面 。

在传统的深度进建技术下,要让机械可能从海量文本中智能抽取出这些信息,就必要大量带有了局的训练数据来“训练”并“教会”机械若何从非结构化文本中抽取所需了局,训练数据的获取难度极度大且训练成效欠安 。鉴于此,本钻研首先基于大量容易采集和获得的语料(蕴含维基百科、百度百科、微博、论坛等)训练出一个通用的模型,而后再将该模型迁徙到具体的天然说话分析工作中 。由于通用模型已经具备较好的信息处置能力,因而只需再通过少量的训练数据就能达到更为梦想的成效 。该步骤被称为深度迁徙进建,既解决了训练数据获取难的问题,又保障了训练成效 。事实证明,所必要的训练数据量不到深度进建的1%,但在实体抽取、属性抽取和感情分类上的正确率都能达到85%以上 。

第三,行业知识图谱:通过天然说话处置后,即可得到行业知识图谱的根基组成身分:实体、属性和感情 。行业知识图谱的利益在于萦绕市场的现实需要成立齐全的知识系统,把握住用户对于企业品牌和产品的生理履历,为企业提供有洞察价值的市场决策支持 。

第四,利用分析:基于行业知识图谱,能够进行各类市场分析,蕴含品牌分析、产品分析、用户履历分析以及趋向分析等等,为企业的营运决策提供有效参考 。就产品分析而言,能够凭据行业知识图谱分析出企业的产品相比市场上竞争产品的各类曲直势,这代表着消费者真实的市场声音,对于下一代产品的改进有极度沉要的领导意思 。另表,趋向分析对于企业的市场分析也很沉要,通过行业知识图谱,能够实时捕获到产品个性的新热点,例如对于咖啡企衣反说,发现某种新口味的咖啡忽然被会商的声量出格大,企业实时抓住趋向,推出对应的新品,这样就能在强烈的市场竞争中,预防后进被裁减 。

 

三、现实利用—以某品牌牙膏为例

由于生涯节拍的变动,加之熬夜、压力大等成分,人们时时出现上火的症状,如牙龈肿痛和口腔溃疡 。因而在选购产品时,消费者会关注产品的清火成效 。某品牌牙膏但愿相识消费者对其牙膏清火成效的口碑,针对该项目,本钻研团队拔取电商网站、幼红书、知乎等网站数据,采集约40万条口碑评价文本数据 。

在以上40万评价文本数据中,涉及18个重要的清火产品品牌 。结合该牙膏品牌厂商的述求,本钻研团队对18个品牌及每个品牌的5种产品(牙刷、通常牙膏、电动牙刷、漱口水、牙线)进行总体口碑评价分析,设计了一个三级标签结构:一级(口腔护理类);二级(18个品牌名称);三级(每个品牌的5种产品) 。之后,对特定品牌的多种产品进行感情标注 。例如,某消费者针对某品牌给出“这个牌子的电动牙刷不错,漱口水成效通常」剽一评价,则标注电动牙刷这一产品对应的感情为“正面”,标注漱口水这一产品对应的感情为“中性” 。

将采集并标注后的数据通过深度迁徙进建算法进行训练,训练实现后的模型能够预测出分歧品牌、产品、维度的整体评价 。表1列举了部门维度和对应特点描述 。

 

1. 清火产品的部门维度和对应特点描述

维度

特点描述

症状Symptoms

口气 溃疡 吵嘴长泡 肿痛 出血 炎症长痘   便秘

场所 Occasions

火锅 水果 幼龙虾 油腻食品 辛辣食品 沉口味烧烤   春天夏天秋冬天熬夜 加班 压力大 冷水刷牙 生涯犯法规

步骤 Solutions

牙膏 食疗 药物 口腔护理产品 理疗 足贴

牙膏功效 TP’s Benefit

除口气 除溃疡 去红肿 止血 固齿 防蛀   多效 美白 去渍 抗色素沉淀 去牙菌斑 去结石 洁齿 护龈 护牙釉 抗敏感 去菌

成分 Ingredient

 

安全性 Safety

天然 无增长 可食用 无糖

包装 Package

压泵式 管状 站立式 盖子

产地 Origin

物流 客服 包裹 正品

服务 Service

 

价值 Price

价值 促销

确定维度后,通过同样的步骤训练模型并进行预测,形成相应评价指标 。企业重要关切的指标蕴含:

(1)     评论数(BUZZ):该指标体现了消费者对于产品特定维度的关切水平 。评论数越多,注明消费者对该产品维度更关切 。

(2)     好评度(Positive Sentiment Rate,简称PSR):该指标体现了消费者对产品特定维度的履历好感度 。产品好评度指数越高,口碑形象越好 。具体推算公式如下:

641E33ED6D82817CBD55C466B9C_150E711D_933;

(3)     净爱好度(Net Sentiment Rate,简称 NSR):净爱好度融洽评度都反映了消费者对某产品特定维度的好感度 。分歧点在于,其在好评度的基础上进一步体现了负面评论的影响 。具体推算公式如下:
6AF8C9ABDF7BA3B3E42AFC78F46_70835CC2_A66 。

文本处置实现后,凭据各品牌、各产品、各维度的分析了局,构建出行业品牌、产品关于清火有关分析维度的散布图谱(可拜见图2、图3),该图谱体现了分歧维度产品、品牌的口碑曲直势 。通过图谱相识市场评价有助于企业更清澈地意识产品的竞争力和不及:一方面,图谱能够援试祗业形制品牌优势,维持竞争力;另一方面领导企业更好地投入产品创新研发,添补产品弱势,满足市场需要 。

针对本案例,图2展示了具体了局(由于数据敏感,精确数字在此汇报中被隐去) 。从图2能够看出,针对清火步骤(Solutions)的会协商最多,而上火症状(Symptoms)的负面评论量相对最大(-64%) ?杉,1)若干上火症状是导致消费者产生负面评论的关键 。2)消费者对于清火步骤的关注水平相对最高,注明消费者也试图通过一系列的表在伎俩达到清火的主张 。以上两点,说明清火功效的牙膏的确拥有较高的市场需要,并为牙膏品牌商推出有关清火系列产品提供了理论支持 。

9BEBFFF7C39660D1DCDAB484581_C91BE143_91B8

2. 评论维度的评论数(BUZZ)与净爱好度(NSR)

在这个项目中,除了对分歧品牌、产品、维度进行感情正负面分析以表,我们对用户时时提及的问题点也进行了综合和统计,统计出分歧问题点提及最高的问题内容,如图3所示 。例如对于症状(Symptoms),最多被提及的症状占比26%;而最多被提及的场所占比35% 。[1]借助该钻研技术,牙膏品牌商能够更为正确地获取缔费者上火的性质原因,把握产品的创新研发方向和营销方向 。

711D5D456C27F384A0F6BE02F6E_B453F6F1_70EC

3. 用户在沉点维度评论的问题点

当然,把握产品维度爱好统计了局和行业知识图谱有时也不及以满足客户所有需要 ;诜治隽司,对沉点维度进行深度原始数据挖掘,总结出每种维杜酌户最不中意的方面和问题,是分析结论的另一沉要部门 。

 

四、结论

新型贸易模式的催生拥有对信息时效性的更高要求并带来数据非结构化多维度的变动趋向 。然而,在新型贸易模式的布景下,传统的数据采集步骤出现了显著的滞后性单方面性降维性 。找到一种卓有成效的数据采集和处置步骤,是应对技术改革、支吃祗业决策、形成企业竞争力的沉要行动 。

基于天然说话处置和行业知识图谱的人为智能技术添补了传统数据采集步骤和分析步骤的缺点 。通过互联网数据的采集和文本的分析处置,结合深度迁徙进建的天然说话分析模型,构建行业产品知识图谱,能够援试祗业把握市场反馈,相识产品问题,为企业改进其自身产品提供明确指标,为其产品研发、市场分析提供沉要的领导,从而提高决策效能 。

 

作者介绍:

郑晓娜    J9集团国际站

苏海波    北京百分点信息科技有限公司

李亚博    北京百分点信息科技有限公司



[1] 注:前文提到统一个评价数据可能提及了多个标签维度,因而二级标签的百分比加总可能超过100% 。同时也存在打签时评价数据被打上一级标签,但不定能打上二级标签,因而也会出现二级标签的百分比加总低于100% 。

【网站地图】