专属客服号
微信订阅号
全面提升数据价值
赋能业务提质增效
摘要: 10月21日,一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章在社交网络广为流传,直指在线旅游网站马蜂窝存在点评大量造假、85%的数据从其他网站抓取的情况,引起了轩然大波。纵观国内外各大网站,因数据问题曝光而给企业形象带来负面影响的新闻经常发生,互联网行业由于本身的业务特点,成为了数据问题的“重灾区”,而数据挖掘既是互联网企业安身立命的根本,也是产生黑色利润的重要工具,成为高悬在企业头上的达摩克利斯之剑。数据挖掘为什么如此重要?本文将为你揭开数据挖掘行业的神秘面纱。
图1 马蜂窝造假数据
(数据来源:新浪科技)
数据挖掘是将商业数据库中的诸多信息,经过数据清洗和集成、选择和变换、分析综合、模型化处理等一系列步骤,提取出有效的、新颖的、潜在有用的以及最终可理解模式,进行决策、控制、预测的高级处理过程。数据挖掘最早提出是在1989年,国内对该领域研究稍晚,1993年国家自然科学基金开始支持该领域研究。
数据挖掘的方法
从不同的角度看,数据挖掘技术有多种分类方法,如根据发现的知识种类分类, 根据挖掘的数据库类型分类等等。目前常用数据挖掘方法包括如下:
(1) 神经网络方法
模拟人脑神经元结构,以MP 模型和Hebb学习规则为基础,用神经网络连接的权值表示知识,其学习体现在神经网络权值的逐步计算上。目前主要有3 大类神经网络模型:①前馈式网络,以感知机、反向传播模型、函数型网络为代表, 可用于预测、模式识别等方面。②反馈式网络,以Hopfield 的离散模型和连续模型为代表, 分别用于联想记忆和优化计算。③自组织网络,以ART模型、Koholon模型为代表, 用于聚类。
(2) 遗传算法
一种基于生物自然选择与遗传机理的随机搜索算法,仿生全局优化方法。主要优点是隐含并行性、易和其它模型结合。
(3) 决策树方法
一种常用于预测模型算法,通过将大量数据有目的分类,从中找到一些有价值的、潜在的信息。主要优点是描述简单、分类速度快、 适合大规模的数据处理。
(4) 粗集方法
在数据库中,将行元素看成对象, 列元素看成属性,等价关系R 定义为不同对象在某个(或几个)属性上取值相同,这些满足等价关系的对象组成的集合称为该等价关系R 的等价类。
(5) 覆盖正例排斥反例方法
利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。
(6) 统计分析方法
在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,进行常用统计、回归分析、相关分析、差异分析、主成分分析等。
(7) 模糊集方法
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强。
(8) 概念树方法
对数据库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称之为概念树。对多个属性字段的概念树进行提升,将得到高度概括的知识基表,然后可再将它转换成规则。
(9) 公式发现
在工程和科学数据库中,对若干数据项进行一定的数学运算,求得相应的数学公式。比较典型的BACON完成了对物理学中大量定律的重新发现,其基本思想是:对数据项进行初等数学运算,形成组合数据项,若它的值为常数项,就得到了组合数据项等于常数的公式。
数据挖掘的应用领域
(1)金融领域
金融数据具有可靠性、完整性和高质量等特点。这在很大程度上利于开展数据挖掘工作以及挖掘技术的应用。数据挖掘在金融领域中有许多具体的应用,例如分析多维数据,以把握金融市场的变化趋势;运用孤立点分析等方法,研究洗黑钱等犯罪活动;应用分类技术,对顾客信用进行分类,为维持与客户的关系以及为客户提供相关服务等决策提供参考。
(2)医疗领域
人类的遗传史、疾病史以及医疗方法等医疗领域中都隐藏着海量的数据信息,对医院内部结构、医药器具、病人档案以及其他资料等的管理也产生了巨量的数据。对于这些数据,运用数据挖掘技术,既有助于医疗人员发现疾病的规律,从而提高诊断的准确率和治疗的有效性,也可以帮助医护人员提高工作效率和质量,促进健康医疗事业的发展。
(3)零售和电商领域
运用数据挖掘技术对海量的销售数据进行分析,可以有效地识别顾客的购买行为,从而把握好顾客的购买趋势。商家可以根据数据挖掘结果有针对性地采取措施,改进服务质量,提高商品的销售量,从而提高企业效益。此外,由于数据挖掘的推荐系统已经成为电子商务的关键技术,通过数据挖掘,再对网站进行系统分析,对用户的行为模式加以识别,在增加客户黏性,提供个性化服务,优化网站设计等方面也取得了很好的效果。
(4)电信领域
电信运营商已逐渐发展为一个融合了语音、图像、视频等增值服务的全方位立体化的综合电信服务商。运营商要合理地分析商业形式和模式,运用数据挖掘是非常有必要的。例如对用户行为、利润率、通信速率和容量、系统负载等电信数据,可以运用多维分析方法进行分析;要发现异常模式,可以运用聚类或孤立点分析等方法进行数据挖掘;要得到电信发展的影响因素,可以运用关联或序列等模式进行分析等。
(5)社交网络分析
社交网络分析是从关系和结构两个方面来了解、度量和预测行为的科学。结合图论和非参数统计技术,研究人员利用数据,来识别网络内和跨网络的关键人员和关键群体,或者特殊模式和重要途径。通过这些数据来分析人们的活动取向,为公司的营销提供有力的依据,也可以利用多个社交媒体来交叉验证同一个人,对于追踪犯罪行为、恐怖分子、恋童癖者尤为重要。
数据挖掘的研究方向及发展趋势
数据挖掘研究方兴未艾,目前研究焦点集中于以下几个方面:
(1)发现语言的形式化描述,标准化研究。即研究专门用于数据挖掘的语言,像SQL语言一样走向形式化和标准化。
(2)寻求数据挖掘过程中的可视化方法。使知识发现过程能够被用户理解,也便于在知识发现的过程中进行人机交互。
(3)数据挖掘系统实施中的安全性和隐定性。数据挖掘能从不同角度、不同抽象层上看待数据,这将潜在地影响数据私有性和安全性。随着网络日益普及,研究数据挖掘可能导致的非法数据入侵是实际应用中亟待解决的问题之一。
(4)功能较强大的专用数据挖掘软件。未来的几个热点发展方向,如网站数据挖掘、生物信息或基因数据挖掘、文本数据挖掘、个人数据挖掘,这些领域具有独特的数据性质,需要专业软件来支持。
(5)探索新型应用领域。主要集中体现在商业智能,企业、政府决策。随着研究的深入,数据挖掘系统在处理特定问题时有其局限性,开发针对某一专业挖掘系统成为研究趋势。
总结
数据挖掘是一个年轻且充满希望的技术手段,目前发展非常迅速,应用领域也在不断扩展,产业前景非常可观。商业利益的驱动既会促进它的快速发展,也容易诱导它成为犯罪手段,而如何规范这项技术未来的发展,需要企业和政府共同努力,制定行业标准、规范行业行为。在此基础上,企业恪守自己的底线,才能用好这把达摩克利斯之剑。
本文为我公司原创,欢迎转载,转载请标明出处,违者必究!
请完善以下信息,我们的顾问会在1个工作日内与您联系,为您安排产品定制服务
评论