移动电子商务与数据挖掘
1.1 移动电子商务与数据挖掘的关系 目前,移动互联网技术和数据库技术飞速发展,移动电子商务正显示出越来越强大的生命力,它把电子交易从传统的PC端转移到了移动终端,使人们可以随时随地进行电子商务活动,这加速了社会经济的电子化进程,同时也使得数据爆炸的问题越来越严重。数据挖掘的兴起为电子商务提供了强大的数据支撑,利用数据挖掘技术可以有效的帮助企业分析网上获取的大量数据,发现隐藏在其背后的知识,为电子商务客户提供个性化服务,建设智能商务网站,指导企业的营销策略,由此使企业线上的业务得到进一步的发展。
移动电子商务便捷以及交互式的服务可以为数据挖掘提供海量的数据。因为客户对网站的每一次点击都会被网络服务器记录在日志中,由此产生了点击流数据。网站的服务器日志,后台数据库中客户相关的数据,以及大量交易记录等数据资源中都蕴含着海量有待充分挖掘的信息,海量数据是数据挖掘的一个必要条件,如果数据量少,则挖掘的信息是不够精准的。
移动电子商务网站可以为数据挖掘提供“干净的”数据。因为许多相关的信息是从网站上直接提取的,无需从历史系统中集成,避免了很多错误。通过良好的站点设计,不需要进行分析、计算和预处理等步骤,就可以直接得到与数据挖掘相关的数据。移动电子商务网站的数据,非常可靠,无需人工输入,从而避免了很多错误。此外,可以通过良好的站点设计来控制数据采样的颗粒度。
基于移动电子商务的数据挖掘能够使得挖掘的成果非常容易应用。很多其他的数据挖掘研究虽然有很多的知识发现,但是这些知识很多不能轻松的在商业领域中应用并产生效果。因为要应用这些知识可能意味着需要进行复杂的系统更改、流程更改、或改变人们日常的办事习惯,这在现实中是相对困难的。而在移动电子商务领域,很多知识发现都可以直接应用。如改变站点设计(改变布局,适当进行个性化设计),针对于特定目标或消费群进行的随时随地的网上促销,根据对广告效果的统计数据改变相应的广告策略,根据数据特点可以很容易地进行网上捆绑式销售等。
1.2 Web挖掘的定义 Web数据挖掘(Web Data Mining),是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。它是一项综合技术,涉及到Internet技术、人工智能、信息学、统计学等多个领域。
面向电子商务的数据挖掘是Web挖掘的一个典型应用,Web上的日志文件,如客户的访问行为,访问频度,浏览内容及时间等,包括很多可挖掘内容,对这些内容进行提取、加工、分析,可以将客户的访问数据从潜在的、隐含的状态,变为企业分析市场、制定经营策略、管理客户关系的有力依据,从而实现Web上电子商务活动的本质,即获得商务的增值。 对应于不同的Web数据,Web挖掘也分成三类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用模式挖掘(Web Usage Mining)。(图1)
Web内容挖掘就是对网络页面的内容进行挖掘分析,包括对文本、图像、音频、视频、元组数据的挖掘,但目前多数是基于文本信息的挖掘,这又可以进一部分为网页内容挖掘和搜索结果挖掘,前者是传统的依据内容搜索网页,后者是在前者搜索结果的基础上进一步搜索网页。Web内容挖掘和通常的平面文本挖掘的功能和方法比较类似,但由于互联网上的数据基本上都是HTML格式的文件数据格式流,因此可以利用文档中的HTML标记来提高Web文本挖掘的性能。
Web结构挖掘是对网络页面之间的结构进行挖掘,从网页的实际组织结构中获取信息。整个Web空间中,页面内容和页面结构中都可能会存在有用的知识。Web结构挖掘主要就是针对页面的超链接结构进行分析,通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息。如果发现有较多的超链接都指向某一页面,那么该页面就是重要的。这种知识可以用来改进搜索路径。
Web使用模式挖掘是对用户和网络交互的过程中抽取出来的第二手数据进行挖掘,包括网络服务器访问记录、浏览器日志记录、注册信息等。最常用到的是网络服务器访问记录挖掘,它通过挖掘Web日志文件及客户交易数据来发现有意义的客户访问模式和相关的潜在客户群。其主要特点是对客户信息数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。这里需要特别指出的是,Web使用模式挖掘还可以进一部分为一般访问模式跟踪和定制使用跟踪,前者是一种查看网页访问历史记录的使用模式挖掘。这种挖掘可以是一般化的,也可以是针对特定的使用或使用者,这便是后者。
1.3 Web挖掘的数据源
很多数据都可以在Web上进行数据挖掘分析,并且这些数据存在很多类型,具体来说主要有以下几种类型的数据。
1.3.1 服务器数据 通常只要有客户访问站点就会在Web服务器上留下相应的痕迹,即日志数据,这些日志数据存储在服务器上的形式通常都是文本文件,比如cookie logs、error logs、sever logs等。
1.3.2 查询数据 它是电子商务站点在服务器上产生的一种典型数据。例如,对于在线客户也许会搜索一些产品或某些广告信息,这些查询信息就通过cookie或是登记信息连接到服务器的访问日志上。
1.3.3 在线市场数据 在线时长数据主要包括存储在传统关系数据库里的商品信息、客户购买信息和电子商务站点信息等。
1.3.4 Web页面 主要是指HTLM和XML页面的内容,包括本文、图片、语音、图像等。
1.3.5 Web页面超级链接关系 主要是指页面之间存在的超级链接关系,这也是一种重要的资源。
1.3.6 客户登记信息 客户登记信息是指客户通过Web页输入的、要提交给服务器的相关客户信息,这些信息通常是关于用户的人的特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步地了解客户。
2 Web使用模式挖掘分析
Web使用模式挖掘是Web数据挖掘中最重要的应用,其数据源通常是服务器的日志信息。Web服务器的日志记载了用户访问站点的信息,这些信息包括:访问者的IP地址、访问时间、访问方式(GET/POST)、访问的页面、协议、错误代码以及传输的字节数等信息。
每当网页被请求一次,Web日志就在日志数据库内追加相应的记录。站点的规模和复杂程度与日俱增,利用普通的概率方法来统计、分析和安排站点结构已经不能满足要求。只有通过数据挖掘技术处理服务器的日志文件,才能分析用户访问站点的规律,改进网站的组织结构及其性能,增加个性化服务,实现网站自适应,发现潜在的用户群体。
Web使用模式挖掘的过称具体包括数据的预处理过程、模式发现过程以及模式分析过程。
2.1 数据预处理过程
在数据预处理过程中,首先需要做一些数据清洗。其次由于日志文件中只记录了主机或代理服务器的地址,需要运用Cookie技术和一些启发规则来帮助识别用户,之后还要确认Web日志中是否有重要的访问页面被遗漏,如果有,需要进行相关的路径补充。最后要进行事务识别工作,即将用户的会话针对挖掘活动的特定需要进行定义、细分,使挖掘更加精确,得到想要的知识。
数据清洗:即把日志文件中一些与数据分析的无关项处理掉,例如剔除Web请求方法中不是“get”的记录。以及删除Web服务器日志中与挖掘算法无关的数据,一般来说只有服务器日志中的HTML与挖掘相关,Web日志文件的目的是获取用户的行为模式,通过检查URL的后缀,可以删除不相关的数据。例如:将日志文件中后缀名为JPG,GIF等图片文件删除,将后缀名为CGI的脚本文件删除。
用户识别:数据清洗之后,使用基于日志的方法同时辅助以一些启发式规则,可以识别出每个访问网站的用户,这个过程就叫做用户识别。在时间区间跨越较大的Web日志中,某一用户可能多次访问该站点,这时就要用到会话识别。其目的就是将用户的访问记录分为单个会话(Session)。那么如何来分呢?可以做如下设定:用二元组S表示一个用户会话
S=,
其中userid是用户标识,RS是用户在一段时间内请求访问Web页面的集合,RS内包含用户请求页面的标识符Pid及请求时间time,那么这段时间的访问集合RS即可划分为:
RS={,…}, 于是,用户会话可表示为:
S=<userid,{,…}>,
由此可以看出分成的每一个单独的会话。
路径补充:由于代理服务器本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求,路径补充就是利用引用日志和站点的的拓扑结构将这些遗漏的请求补充到用户会话中,设遗漏的请求为,其中请求时间timek为设备前后两次请求的平均值,那么,用户会话即可表示为:
S=<userid,{,……}>(k<n)< p="">
事务识别:上面讲到的用户会话是Web日志挖掘中唯一具备的自然事物元素,但对于某些挖掘算法来说可能它的颗粒太粗,区分度较低,为此需要利用分割算法将其转换为更小的事物,即进行事务识别。
HTML通过“Frame”标记支持多窗口页面,每个窗口里装载的页面都对应一个URL,Frame页面用来定义页面的大小、位置、及内容,“Subframe”用来定义被Frame包含的子窗口页面,当用户访问URL对应的是一个Frame页面时,浏览器通过解释执行页面源程序,会自动向Web服务器请求该Frame页面包含的所有Subframe页面,这一过程可以重复进行,直到所有Subframe页面都被请求。如果在这样的用户会话文件上进行挖掘,Frame页面和Subframe页面作为频繁遍历路径出现的概率很高,这自然就降低的挖掘的结果价值。为此应当消除Frame页面对挖掘的影响,得到用户真正感兴趣的挖掘结果。
2.2 模式发现过程
数据预处理之后,可以对“干净整齐”的数据进行挖掘,即找出有用的模式和规则的过程。下面主要分析三种常用的Web使用模式挖掘方法:关联分析、分类与预测、聚类分析、时间序列分析。
关联分析:即通过分析用户访问网页间的潜在联系而归纳出的一种规则,如80%的用户访问页面company/product1时,也访问了页面company/product2,这说明了两个页面的相关性。那么可以进行一个页面的预取,来减少等待时间。用{A,B}来表示两个页面,那么在用户访问A时,可以把页面B提前调入缓存中,从了改善Web缓存,改善网络交通,提高性能。若A和B表示两个产品页面,则两种产品对客户来说有很大的相关性。利用这一点可以做出很有效的促销和广告策略。
关联规则的算法思想是Apriori算法或其变形,由此可以挖掘出访问页面中频繁在一起被访问的页面集,这种频繁在一起被访问的页面就成为关联页面,可用A=>B表示。那么,若有:
A=>B=>C,A=>B=>D,A=>B=>E,A=>B=>F=>G,…,
则说明A=>B。
分类和预测:可以用分类来提取出用来描述重要数据类的模型,并可以用分类模型来划分未知数据的类,从而预测未知数据的趋势。常用的算法思想为决策树,神经网络、贝叶斯分类等。例如可以根据用户的资料数据(包括用户一些属性)或其特定的访问模式将其归入某一特定的类。
可以根据客户对某一类产品的访问情况,或如其抛弃购物车的情况,来对客户分类(即对哪一类产品感兴趣)。更深入一点,可以为客户添加一些属性,如性别,年龄,爱好等(可在网站注册信息中获得),并将对哪一类产品感兴趣定义为目标属性,那么基于这些属性可以用决策树算法来进行分类,可以得出符合目标属性的人的特点,如40岁以上的男性更容易网购皮鞋等,这样可以更精准的捕捉客户并制定营销策略。
聚类分析:聚类即将对象的集合分成由类似的对象组成的多个类的过程。常用的算法思想有划分方法、层次方法、基于密度的方法等。如可以用K-mean的划分方法做到类之间差异化最大,而类内相似性最大。
在使用模式挖掘中主要有两种聚类。一种是页聚类,即将内容相关的页面归到一个网页组,这对网上搜索引擎对网页的搜索有很大帮助。另一种是客户聚类,即将具有相似访问特性的客户归为一组,那么可以分析出喜好类似的客户群,从而可以动态的为客户群制定网页内容或提供浏览意见,如通过对众多的浏览“sports”网页的客户分析,发现经常在该网页上花上一段时间去浏览的客户,再通过对这部分客户的登记资料分析,知道这些客户是潜在要买运动产品的客户群体。就可以调整“sports”网页的内容和风格,以适应客户的需要。这在电子商务市场的分割和为客户提供个性化服务中起到了很大的作用。
2.3 模式分析过程
在挖掘出一系列客户访问模式和规则后,还需要进一步观察发现的规则、模式和统计值,之后确定下步怎么办,是发布模式还是对数据挖掘过程进行进一步调整。
如果存在冗余或无关的知识,需要将其剔除。如果经过模式分析发现该模式不是想要的有价值的模式,则需要对挖掘过程进行调整,再转入第二步重新开始。反之,即发现感兴趣的规则模式,则可采用可视化技术以图形界面的方式提供给使用者。
3 基于企业的电子商务平台的数据挖掘应用
许多传统制造业或零售业的业务正在进行着电子化的转型,电子商务、移动客户端、线上大平台的思路不断发展。那么,如何建设一个企业的电子化平台,如何有效收集平台产生的海量数据,数据挖掘技术如何应用于海量数据,这些都是值得深入研究的问题。
3.1 建设企业线上大平台
目前许多企业都面临着客户资源管理分散,客户数据的物理化、静态化、分散化,以及缺乏对客户的深层分析和需求挖掘等问题。按照传统企业想要占有电子商务市场或移动客户端市场的需求,为了更好地以大数据集中为基础,推进客户营销服务个性化,企业可建设以会员管理为核心的大客户管理系统,把原有的各类信息系统、业务网站、电子商务网站等融汇在一个大平台下,并分阶段实施数据大集中,实现“海量客户资源共享,一个客户、多个产品、多频次使用”的一站式营销服务。通过数据的整合管理,分析客户特点,实现客户在企业内各板块的迁移和共享。 会员管理的实质是为用户提供连续的、长期的产品和服务。实现了为用户提供持续的、长期的产品和服务就需要将短期的用户发展为长期型和稳定型用户,而会员制正式实现这种转变的最合适的方法,这就需要建立起强大的会员平台,从而掌握会员的消费数据,实现会员制的管理。
许多企业拥有的业务众多,这就造成了各业务拥有自己众多的忠实用户,但目前各个业务的用户没有达到行业内的共享。会员管理平台为这些分散在行业内的用户提供统一的平台达到行业内的统一,在会员管理的平台上不同业务的用户可以实现统一登录、统一管理、统一办理业务来达到账号统一、业务统一、积分统一、信用统一,从而使企业多元化的各项业务达到资源和信息的行业内统一。
3.2 基于线上平台的数据采集平台
建设会员管理平台的根本目的是进行数据挖掘,以庞大的会员信息来进行市场洞察和市场预测。因此建设数据收集系统并与会员管理平台对接,可以有效收集到客户数据并进行挖掘工作。
在数据的收集方面,目前许多企业数据信息的作用主要是统计收入和业务量、清分核算以及考核,而大数据这一数据价值最为关键的特性却没有被很好利用。
企业现有的平台有时并不能很好地完成有效数据的收集,许多数据多为财务列收数据或业务完成情况数据。该类数据的属性并无太多挖掘价值,无法进行有效的数据分析。数据挖掘需涉及到分类、聚类、关联分析等算法的应用,以此来定位目标客户,这对数据的属性要求是比较高的。企业要充分挖掘和分析各类数据,开展信息应用,进行业务创新和运作流程的优化,提升经营管理能力和客户服务水平。
数据收集平台系统正是基于此目的进行开发,需达到真实有效的客户信息数据、业务数据、Web服务器日志数据的全面收集,功能包括:
①与电子化平台对接,可以收集到平台的会员及非会员的客户信息数据。在系统中可设客户的年龄、职业、爱好、收入等客户相关属性项,从而把会员俱乐部中的有效客户信息数据归类收集,为分析不同类型客户做准备。
②有效收集到客户交易数据以及相关业务数据,系统中设定各类客户指标(收入贡献、交易额、价值度等),为分析不同类型业务做准备。
③能够进行WEB服务器日志数据的收集。对于企业业务网站及企业电子商务平台,系统可抽取和收集网站的WEB服务器日志数据,从而为进行相关的页面访问频度、浏览时间、页面指向等客户行为模式分析做准备。
3.3 Web挖掘在企业的应用
目前Web数据挖掘技术已经在企业得到了广泛应用,分析其原因是该技术能够挖掘出活动过程中的各类潜在信息,进而帮助企业得到更高的发展,其优势具体如下:
3.3.1 发现潜在客户 由于Web数据挖掘技术可以把客户在电子化平台上的浏览行为存储下来,通过查看这些客户的浏览行为就可以了解到客户的兴趣和购买意向,由此就可以发现潜在客户,进而有针对性地对这些潜在客户采取某种谋略,使其尽快的成为在册客户群体,如此一来,电子商务网站的经济效益将会越来越好。
3.3.2 提供优质个性化服务,提高客户忠诚度 在电子商务中,虽然客户和销售商之间的空间距离消失了,但客户的选择面更广了,客户只需轻点几下鼠标就可以从这家电子商务网站转换到另一家电子商务网站。在这种情况下,各家电子商务网站必须各出奇招,努力使自家网站的内容和层次、用词、标题和奖励方案等比其它网站更具优势、更吸引人,通过提供优质个性化的服务,不断提高客户的忠诚度。
3.3.3 改进系统性能,增强安全性 对于电子化平台的各种数据统计分析,有助于改进系统性能,增强系统安全性,并提供相关决策支持。客户衡量网站满意度的一个关键指标就是Web服务器的性能,通过应用Web数据挖掘技术可以清楚了解到哪个站点的客户是最多的,最容易造成拥塞记录的,然后有针对性的采取有效的Web缓存策略,减少网站的传输压力,同时运用Web数据挖掘技术还可以将非法进入电子商务网站的人员挖掘并清除出去,因此可以说Web挖掘在企业的应用改进了系统性能,增强了安全性,保证了业务的正常展开。
3.3.4 改进网站设计,增强客户体验 Web挖掘在企业的应用还能够有效的改进网站设计,增强客户体验,具体表现在以下三个方面:
①通过对Web日志的挖掘,发现客户访问页面的相关性,从而对密切联系的网页之间增加链接,方便客户使用。②利用路径分析技术判定在一个Web站点中最频繁的访问路径,可以考虑把重要的商品信息放在这些页面中,改进页面和网站结构的设计,增强对客户的吸引力,提高销售量。③通过对Web日志的挖掘,发现客户的期望位置。如果在期望位置的访问频率高于对实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接,从而实现对Web站点结构的优化。
3.3.5 应用于收索引擎 通过对Web网页内容的挖掘,可以实现对网页的聚类和分类,实现网络信息的分类浏览与检索;通过客户使用的历史记录分析,可以有效地进行扩展,提高客户的检索效果;通过运用Web挖掘技术改进关键词加权法,可以提高网络信息的准确度,改善检索效果。通过挖掘客户的行为记录和反馈情况可以为站点设计提供改进的依据,从而进一步优化网站组织结构和服务方式来提高网站效率。
站点的结构和内容是吸引客户的关键,站点上页面内容的安排和连接如同超市中物品在货架上的摆设一样,把具有一定支持度和信任度的相关联物品摆放在一起有助于销售。比如利用关联规则,可以针对不同客户动态调整站点结构,使客户访问的有关联的页面之间的链接更直接,让客户很容易访问到想要访问的页面。这样的网站往往能给客户留下好印象,提高客户忠诚度,吸引客户不断访问。
3.3.6 聚类客户 许多企业都对企业的客户、市场、销售、服务与支持信息进行深层次发掘和分析,对客户价值进行分类,发现新的市场机会,增加收入和利润。所以聚类电子化平台客户是一个重要的方面。通过分组具有相似浏览行为的客户并分析组中客户的共同特征,可以帮助企业更好地了解自己的客户,及时调整页面及页面内容使商务活动能够在一定程度上满足客户的要求,向客户提供更适合、更面向客户的服务,使商务活动对客户和销售商来说更具意义。 4 小结
数据挖掘技术正以前所未有的速度发展,并且扩大着用户群体,在未来越来越激烈的市场竞争中,拥有数据挖掘技术必将比别人获得更快速的反应,赢得更多的商业机会。
基于Web的数据挖掘在移动电子商务中的应用将是一个非常有前景的领域,有很多优势,经过近几年的发展已逐渐成为数据挖掘与知识发现领域的一个重要分支。其针对移动电子商务网站用户的行为模式进行挖掘,可以找到用户的潜在兴趣与偏好,指导网站建设,支持企业营销决策。
企业在运营电子商务网站时,尤其是移动电子商务,会产生海量的业务数据,所以需要建设一个线上的电子化大平台来汇集业务,同时在这个大平台基础之上高效地收集业务数据,针对Web数据,使用Web挖掘技术预测客户的消费趋势、市场走向,维系客户关系、指导企业建设个性化智能网站,带来巨大商业利润。这可以为企业创造新的商业增长点,使其在激烈的市场竞争中处于有利位置,抢占先机。