算法工程师为什么成天做数据，都做哪些数据？

时间：2020-11-19 11:18:11 来源：作者：

大家好，前几天群里有小伙伴说希望看到更多的算法工程师的日常。其实对于算法工程师而言，最大的日常就是做数据了，所以给大家分享一下做数据的那些事。

为什么很少做模型

在大家想象当中，可能算法工程师做的事情是今天看paper，明天把paper实现了，后天就上线使用，然后公司的收入刷刷涨，我们的工资、级别也跟着涨。但实际上，大多数岗位下的工程师日常并不是这样。国外有一个著名的大佬（我忘记名字了）曾经说过，算法工程师有70%的时间是投入在数据上的，花在模型和调参上的只有不到20%。

这句话大家可能或多或少都听过，但是想必都不是很理解，为什么会这样呢？为什么不能多花点时间做模型呢？原因也很简单，并非不想，而是不能。

不能的原因也很有很多，我随便举几个最常见的。

框架限制

模型不能随便动的原因有很多，一般来说最常见的是框架的限制。这种情况在大公司和小公司里都有，比如之前我在某大公司的时候，公司的框架非常成熟，以至于很少写代码去实现某一个模型，而更多的是可视化界面的连线以及设置操作。问题来了，在这个场景当中，可视化界面当中可选的模型是固定的，都是基础团队开发好的，他们开发好了这么多模型，我们就只能使用这么多模型，除非我们脱离这整个流程，但显然这是不可能的。

所以当时在很长的一段时间里，我们只能在有限的模型当中做选择。直到后来，公司开发出了新的框架工具，可以让我们自己定制神经网络的代码实现深度模型，这才鸟枪换炮迎来了全面升级。

小公司虽然不像大公司这样有一套成熟且不易改动的框架，但是一般也会有自己的一套流程。比如公司前人留下来链路是基于开源xgboost开发的，你想要使用TensorFlow训练神经网络模型代替原有的xgboost，一般来说这是肯定有效果的，也一定会迎来提升。但问题是，你可能需要把训练模型、线上调用模型的整个链路都重构。很多算法工程师的开发能力不太行，而且也不太愿意做工程重构的事情，再加上这块工作量也不小，所以很容易出现的情况就是，大家都明知道怎么做比较好，但是由于投入比较多，大家也都不愿意做，一直delay。

效果难保证

第二个原因是paper上的一些模型和做法，效果其实是很难保证的。如果你读过paper会发现paper的结论往往都有很多前提。比如某某特定的数据或者是场景，前期强大的recall以及过滤系统，或者是完善的特征准备等等。paper里不会把这些都写出来，它只会写上做法以及结果。所以这就导致了，很多paper里写得天花乱坠的方法，实际应用起来效果可能并不好。

这也不是paper吹牛，而是你没有同样的条件。举个例子，阿里的数据埋点非常精准，精准到用户从打开App到关闭app的每一个动作和行为都有记录，每一个商品或者是模块在用户处展示了多少时间，甚至是用户翻页的速度都有全面完整的记录。就这种数据，一般规模的小公司根本做不了。你做不了这个数据，你就没有paper里那些精准的特征。那你如何保证你使用阿里的模型也有同样的效果呢？

优先级问题

我们都知道，事情根据紧急以及重要可以分成四类，不重要不紧急、紧急不重要、紧急且重要、重要不紧急。很多人也都知道，最重要的事情是把那些重要且不紧急的事情做好。说起来大家都会说，但是实际上未必人人都会这么选。

当你面临KPI考核压力的时候，一线的工程师可能就只能盯着紧急的事情做。因为他们需要赶紧做出一点成绩来完成自己的业绩，完成自己业绩的最好方法绝不是去升级或者是更新模型，而是找一些特征做一做，或者是使用一些取巧的方法看看能否提升效果。花时间去更新模型，付出的劳动很大，也不一定有效果。但是做特征代价很小，做了一个没效果，可以再做一个，迭代也快。

这其实并不完全是工程师鼠目寸光，也是整个职场氛围的影响的结果。大家都看重业绩和绩效，以至于大家都陷入了局部最优解，但是却离整体最优解越来越远。

要想避免这种情况，需要有高瞻远瞩、统筹规划的架构师或者是leader，能够抗住升级模型的风险压力。对可能出现的情况以及将来要做的事情有充足、详细的规划，并且有足够的经验应对各种可能出现的事情。但是大家也都知道，拥有这种能力的leader在职场里凤毛麟角。大公司里都不多见，小公司里就更加难得了。

做哪些数据

说完了模型的问题，我们来聊聊数据，既然不能频繁地变更模型，工程师们就只能更多地来做数据了，那么工程师们到底又在做哪些数据，需要花费这么多时间呢？

训练数据

大公司里有完整的流程，我们把流程设计好了之后，训练数据、测试数据、模型训练以及部署可以一条龙流水线作业。但是在中小型公司里，这往往是做不到的。

原始数据是不能直接用来训练模型的，这中间需要复杂的处理流程。首先，需要做采样。就拿CTR预估的场景来举例，一般情况下真实场景下的点击率不会超过10%。但是模型训练一般正负样本的比例是1：3左右，那么这就需要我们对负样本进行采样。

采样你还不能直接采，因为可能这些样本当中还存在很多脏数据或者是非法的数据。我们需要先把这些有问题的数据过滤了之后，再进行采样，这样才能保证我们的数据是干净的。采样了之后，我们需要进行特征和字段的查找补全。因为数据往往是分开存储的，比如用户的基础信息是一张表，用户的行为数据又是一张表，商品的信息是一张表，各种各样的数据存放在各种各样的地方。我们有了样本之后，还需要去查找很多的数据，才能把所有需要用到的字段搜集齐。

当我们搜集了所有需要的数据之后，我们才能开始真正样本的制作，也就是使用这些我们查找以及搜集到的原始数据生成输入模型的样本特征。每一个特征可能都有自己独特的生成逻辑，这也是一个庞大的工程。这一步做完还没结束，还会需要把数据转化成模型需要的格式。比如tfdata或者是tensor、json之类的。

这么一系列步骤，大公司一般都有一整套完整的自动调度流程，工程师们不需要操心，只需要拿来用就好了。但是在中小型公司，可能就只有一些手动工具了，需要数据都需要手工去跑一些任务或者是脚本。跑的过程当中还有可能会失败以及遇到各种问题，虽然说起来平平无奇，也没什么价值，但这些事情都是需要工作量的。

新的特征

特征怎么做？在kaggle之类比赛当中，可能就是使用pandas写两个函数，或者是几行处理的逻辑就搞定了。但实际上绝不是这么简单。

我举一个最简单的例子好了，比如我们将年龄进行归一化，做成一个标准化年龄的特征。这个简单吧，我们就用比较简单的最大最小值归一化方法好了，公式是：

归一化之后，这个特征值会被缩放到0-1的区间里。但是这里面用到了两个参数，一个是最大值，一个是最小值。这两个参数怎么来？你可能会觉得这还不简单，我们遍历下数据不就知道了。但问题是这个数据你并不是只用一次，以后每次生成训练数据都需要生成这个特征，难道每次跑的时候都手动遍历一下数据找下最大最小值吗？而且数据是在变化的，每一天用户年龄的最大和最小值可能都不一样，假如说我们要跑好几天的训练数据怎么办？

设计一个新的特征是简单的，但是里面的一些参数会让事情变得复杂，我们往往需要设计复杂的机制来将新完成的特征加入流程。

效果分析

还有一块数据处理的大头在效果分析，效果分析有两种，第一种是做一些之前没有的指标以及相关的分析，或者是应老板的要求做一些业务指标的分析，达成我们的绩效。

比如像是最基础的CTR、CVR、收入等数据，也有像是老板临时起意想要看的某些数据。比如分析一下某些特征的分布，比如看一下某个特定族群中样本的数量或者是数据的情况，等等等等，不一而足。

第二种是我们模型做出来之后的效果分析，如果说模型的效果还，那还好。如果效果不好，问题就来了，我们怎么样确定是哪里出了问题？是因为模型本身的性能不足呢？还是我们的特征不够或者是特征当中存在问题呢？还是我们的数据质量不高呢？还是说什么地方存在bug呢？

算法不像是工程，工程当中绝大多数事情是确定的，结果不对一定是因为逻辑有bug，那么只要仔细测试，分析原因，总能解决。那种难以复现，找不到原因的问题非常罕见。但是算法不一样，大多数情况下并没有绝对的错误和正确，甚至没有绝对的原因。我们扮演的角色更多地像是侦探，根据一些蛛丝马迹推测导致问题的原因，然后用实验尝试着解决，在这个过程当中就涉及到大量的数据处理和分析的工作。

比如，如果你怀疑是某些特征分布有问题导致了模型效果不好，那么你需要分析特征的分布。如果你怀疑是数据存在bug，那么你需要设计方案，筛选数据，仔细甄别数据当中的问题，验证自己的想法。如果你觉得是训练数据量不够，那么你需要增大训练量，设计对比实验……总之，想要排查问题都需要大量的数据分析，绝不仅仅是看看代码，想一想就能有结论的。

感想

很多想要从事算法的人真正做了算法之后，往往会有幻灭感。会有一种强烈的面试造航母，入职拧螺丝的感觉。原因也很简单，我们面试的时候问的是各种各样的模型，各种先进的理念和方法，但是入职之后面临的工作却是各种各样的数据分析以及数据准备。比如我当年大部分时间都在写SQL做数据，我一度怀疑公司的职位安排。

但当我理解了这一切的运作机制之后，我就理解了。实际的工作场景和线上算法比赛不同，线上比赛我们可以使用各种各样的trick来提升成绩。还可以搞各种跨界混搭，比如今年的腾讯算法大赛的冠军的做法就是把BERT应用在了用户行为分析的场景下。但是在实际的场景当中，由于系统以及各方面的制约，这些想法都是很难实现的而且效果也难保证，最终还是要落实到基本的数据支撑上来。

打个不确切的比方，各种各样的算法模型就好像是工具箱里的各式工具，我们仅仅了解工具是没用的。最重要的是要理解使用工具的场景，从而可以根据需要选择最合适的工具。但很遗憾的是，我们对数据以及场景的理解是很难量化的，所以面试的时候只能退而求其次问你工具的使用了，长此以往很多人本末倒置，搞错了核心竞争力，出现对面试的种种非议也就不奇怪了。

今天的文章就到这里，衷心祝愿大家每天都有所收获。如果还喜欢今天的内容的话，请来一个三连支持吧~（点赞、关注、转发）

本文始发于公众号：TechFlow，求个关注

Tags：工程师点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

职称业绩怎么写？想评工程师中级职称的看过来

评职称可谓是工程人事业发展中的一件大事了，可以说一般想要在行业中持续地、更好地发展的人都会选择评个中级职称！怎么评广东省建筑中级职称？在评审时工程业绩最为重要。那...【详细内容】

2021-12-23　　Tags: 工程师点击:(4)　　评论:(0)　　加入收藏

阿里资深软件测试工程师总结的这几点，让小白轻松搞懂性能调优

什么是性能调优？(what) 为什么需要性能调优？(why) 什么时候需要性能调优？(when) 什么地方需要性能调优？(where) 什么时候来进行性能调优？(who) 怎么样进行性能调优？(How) 硬件配...【详细内容】

2021-12-16　　Tags: 工程师点击:(19)　　评论:(0)　　加入收藏

网络工程师一直盲目跟风的思科认证，到底还剩多少含金量？

到底有没有必要考证？到底考啥等级的证？这是老杨的粉丝们亘古不变的话题。我的一个粉丝小友Ready667就是这样，两年前问了我要不要考证，直到今年都还在纠结中，时不时过来和我探讨一...【详细内容】

2021-10-08　　Tags: 工程师点击:(111)　　评论:(0)　　加入收藏

这11个网络工程师必备实用软件，别说老杨藏私不告诉你

平时网络工程师都用啥软件工作，其实网上有很多安利，这个主要还是见仁见智，用了才知道到底香不香。老杨列举一些自己平时喜欢用的软件，希望能安利给有需要的小友，提升你的工作效率...【详细内容】

2021-08-26　　Tags: 工程师点击:(110)　　评论:(0)　　加入收藏

硅谷软件工程师真的都年薪百万吗？

有一种说法，硅谷程序员是不是收入动则就是年入百万呢？事实上，确实是这样，硅谷程序员和我们国内程序员一样，在美国也属于高收入群体，年入百万属于大概率的事件。大概率到一个什么...【详细内容】

2021-08-11　　Tags: 工程师点击:(387)　　评论:(0)　　加入收藏

网络安全工程师演示：黑客如何配置渗透测试网络和生成安卓木马？

一、网络配置1、首先保证所有的设备（kali虚拟机和安卓手机）都连接到同一个局域网（Wi-Fi）下。在现实生活中，黑客通常找寻免费的公共Wi-Fi，来保证有足够多的安卓手机供其渗透。所以...【详细内容】

2021-08-02　　Tags: 工程师点击:(215)　　评论:(0)　　加入收藏

网络工程师最需要的这5种“技术”，你有几种？

最近，有不少同学都在问我这个问题。其实无论是哪个行业、哪个岗位，每个人都对自己的岗位有一个“核心”技术的理解。就像做网工，我总觉得理论扎实和学习能力才是最重要的技术，而...【详细内容】

2021-07-12　　Tags: 工程师点击:(130)　　评论:(0)　　加入收藏

百度C++工程师如何实现极致并发优化

对于工程经验比较丰富的同学，并发应该也并不是陌生的概念了，但是每个人所理解的并发问题，却又往往并不统一，本文系统梳理了百度C++工程师在进行并发优化时所作的工作。...【详细内容】

2021-06-25　　Tags: 工程师点击:(162)　　评论:(0)　　加入收藏

做华为认证工程师有前途吗？待遇怎么样？月薪一般多少钱呢？

不同工作经验月薪能拿多少？工作经验越丰富薪资待遇越好，以成都为例：应届毕业生生工资在￥4000左右，1-3年工资能涨到￥5000，3-5年工资￥8000，5-10年工资￥11000，10年以上工资￥15000。其实越...【详细内容】

2021-06-18　　Tags: 工程师点击:(191)　　评论:(0)　　加入收藏

新时代的网络工程师需要掌握哪些技能

同其他技术领域一样，网络行业也在快速的进步当中。从最开始的IP网络与ATM之争，ATM技术由于复杂性输给了IP技术。而当IP转发性能成为瓶颈时，参考ATM中面向连接的思想，创造出了新...【详细内容】

2021-06-11　　Tags: 工程师点击:(115)　　评论:(0)　　加入收藏

▌简易百科推荐

国企岗位推荐，程序员求职速来看

JAVA开发工程师（北京）本科 3-5年经验面议（招1人）岗位职责：1.负责我行应用系统的设计，完成软件编码工作，负责管理代码设计规范等工作；2.根据应用需求分析说明书，评估需求研发的可行...【详细内容】

2021-12-27　　just do丶IT公众号　　　　Tags:国企　点击:(1)　　评论:(0)　　加入收藏

一文看懂编程的本质，程序员有前途么？

今天聊聊编程的本质。程序就是数据结构+控制+逻辑，程序员编程工作的本质是翻译，翻译机要来了，程序员怎么办？黑客帝国中的程序黑客帝国4就要上映了，不知道前三部你看懂了么？值得多...【详细内容】

2021-12-17　　博士聊IT　　　　Tags:程序员　点击:(8)　　评论:(0)　　加入收藏

互联网大厂程序员梦醒时分

梦醒之后，每个人对于这份职业的未来、互联网行业的未来，以及更重要的，自己的未来都有了更现实的判断文 | 祝颖丽编辑 | 黄俊杰一个生于 1986 年的人，他所走过的前半生：从出生起，...【详细内容】

2021-12-03　　　　财经杂志　　Tags:程序员　点击:(15)　　评论:(0)　　加入收藏

中年程序员失业后出路在哪里

前些天在头条看到一个八二年的哥们，述说自己找工作屡次被拒的问题，在网上引起了广泛的讨论，这件事给我留下了很深的印象，因为这哥们和我同是程序员，都人到中年，上有老下有小。唯一...【详细内容】

2021-12-01　　云南贤哥在深圳　　　　Tags:程序员　点击:(20)　　评论:(0)　　加入收藏

程序员如何实现高速成长？

很多读者都问过一个问题：程序员如何实现高速成长？之前也写过相关的文章，强调的主要是夯实计算机体系基础知识。再说另一个诀窍：多看经典开源项目，这些项目大多是众多顶尖程序员...【详细内容】

2021-11-30　　findyi　　　　Tags:程序员　点击:(14)　　评论:(0)　　加入收藏

“45岁程序员求职难”，他的焦虑你也有吗？

近日，一位45岁的网民在中国政府网留言求职，引发关注。该网民自称是一名软件开发人员，今年45岁，精通各种技术体系，“而我辞职回家半年后再回来寻找工作机会的时候，却发现连个面试...【详细内容】

2021-11-17　　郭主任　　　　Tags:程序员　点击:(42)　　评论:(0)　　加入收藏

获得网络安全工作所需的 5 种编程语言

即使在安全技术取得进步之后，网络犯罪仍在不断增加。据统计，网络犯罪每分钟给企业造成约 290 万美元的损失。主要是因为新技术不断涌现，难以维护安全。随着网络威胁的增加，网络...【详细内容】

2021-11-04　　章大千　　　　Tags:编程语言　点击:(40)　　评论:(0)　　加入收藏

我，程序员，告诉你年薪30万的程序员转行后，都去做什么工作了

北漂小伙李强（化名），在北京互联网大厂工作7年，月薪3万，离职回老家开摄影店，亏了200万。李强出生于山西一座名不经传的小城市，互联网专业大学毕业的他，没有听父母的劝言回到家乡考公...【详细内容】

2021-10-29　　霸王课　　今日头条　　Tags:程序员　点击:(51)　　评论:(0)　　加入收藏

程序员年龄大了不想敲代码？看看国外同行能敲到多少岁

程序员是青春饭，这在国内似乎是公认的。所以很多公司不愿招大龄程序员，很多程序员也“知趣”地及早转型。有的做管理，有的做架构，我还见过改行卖保险的。总之，年龄大了不想敲代码...【详细内容】

2021-10-27　　编程的艺术　　　　Tags: 　点击:(29)　　评论:(0)　　加入收藏

软件工程专业的就业方向有哪些？

软件工程专业有Web开发、移动终端开发、大数据开发、计算机系统工程师、视频开发工程师、计算机软件应用工程师等就业方向。第一，Web开发。Web开发包括前端开发和后端开发。...【详细内容】

2021-10-19　　辰新　　企鹅号　　Tags:软件工程　点击:(79)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为