【编者按】蕾切尔克林顿(RachelClinton)在数据挖掘、预测分析、数据科学空间等领域拥有近20年的经验,整个职业生涯中经历了太多成功和失败的数据挖掘项目 。在这篇文章中,她总结了以下九个准测试,希望能帮助读者提高他们在大数据项目中的成功几率 。
文章插图
仔细选择项目
为了增加项目成功的可能性,你应该选择那些对商业活动重要且有影响力的项目,比如如何提高客户忠诚度、如何交叉销售或如何识别欺诈 。有时候,听起来高大上的项目很容易引起我们的注意,但是当你做了大量的工作并进行分析后,你会发现这对增加企业的收入一点帮助都没有,你的项目离失败不远了 。
尽可能地多收集些数据
在对用户行为建模时,既要收集关键客户的数据,也要收集潜在关键客户的数据 。忽略或过于关注模型中的一些客户群体,可能会让你忽略模型中的一些重要变量 。
不要只用内部数据
如果在数据挖掘项目中只考虑内部数据而忽略社交媒体行为等外部数据,可能会丢失模型中必需的一些重要变量 。即使研究对象完全正确,如果训练数据错误,模型肯定会有问题 。
合适的采样方法
有时,您使用的分析平台可能足够强大,可以让您使用所能收集的所有数据来训练模型 。然而,训练模型通常使用小样本 。采样方法简单不怕,重要的是让样本代表所有的数据;相比之下,复杂的抽样方法有自己完善的理论 。无论是简单还是复杂,在选择抽样方法时都要有的放矢,找准策略 。
使用测试数据集
使用测试数据集来测试模型可以帮助我们了解模型的性能,避免对模型进行过度训练 。同时,它可以确保我们的模型在现实中是有意义的 。如果数据不准确或不一致,交叉销售推荐模型可能会推荐不再存在的产品 。
探索不同模型
建立模型的第一步通常是在众多变量中找到最可能的变量,然后建立不同的模型进行测试 。从不同的模型中,我们可以根据效果进行过滤,最终找到最合适的模型 。通过这样做,我们可以避免分析师的个人倾向影响结果的准确性 。
定时更新模型
如果你认为你能建立一个模型,能够适应所有过去和现在的数据,并完美地预测未来的数据,我只能说你太年轻了 。你精心制作的模型可能会在短时间内过时 。我们必须根据收集的数据和要求的精度,每月、每周、每天甚至每小时修改模型 。
将结果通俗化
让非统计专业人员能够理解数据挖掘的结果是非常重要的 。您创建的模型可能非常复杂,知道每个细节对于结果的应用来说是完全不必要的 。充满统计术语的交流只能让人觉得你在装,所以要尽量让结果清晰易懂,考虑多放些图片和表格 。
在现实环境中测试
如果你不能把你的模型应用到实践中,真正帮助商业活动,可以说你以前所有的时间都在玩水漂 。从项目开始,就要知道应用在现实中的位置,交叉销售的模式要交给市场部,其他的模式要有好的归宿 。如果没人用,就不能靠吹嘘来证明自己 。
【新兴的大数据创业项目 创业如何选项目】原文链接:http://www 。datasciencecentral.com/profiles/blogs/9有效数据挖掘技巧(翻译/编辑刘/钟昊)
- 什么是大学生自主创业,大学生创业需要什么条件-
- 大学生创业调查表 2016年大学生创新创业项目
- 虎牙直播阿飞直播间,阿飞直播创业
- 自制洗衣液怎么做,洗衣液的制作配方
- 科创杯创新创业大赛,院级创新创业大赛的奖金
- 适合大学食堂的快餐项目,适合学生吃的快餐
- 阿里巴巴|氦刻HIK X5真无线耳机:详细的音频定制轻量级产品,良好的通话
- 掌握10种查询方式 老公出轨了该怎么处理才是最好的
- 适合刚退休女人的工作,退休女性怎样创业
- 奥睿科|U盘界的西装暴徒---ORICO奥睿科usb3.2快闪U盘