给人工智能当教师:拉框、摄影、识万物
旧日流水线上的工人,成为了教“人工智能”知道苹果、桌子、椅子的榜首位教师
新京报记者 周小琪 实习生 梁文雪
芒种刚过,河南郏县东郊,望不到边的农田里,农人们折腰割起了小麦。不远处机械厂、轿车修理厂,机器声此伏彼起。但再往西的建材广场却人来人往,这些天,广场三楼,来了500个长了眼袋的人。
这500个人中,有刚从玉米地里仓促赶过来的农人,连草帽也没来得及摘下。有机关大楼下了班的公务员,也有服装店里请了假的导购员。年青小姑娘们聚在一同,谈论着护肤和美妆。旮旯里,大腹便便的中年大叔点了根烟,垂头玩起手机。
他们被轮番带进了暂时搭的摄影棚里——一个光线暗淡、不到30平米的小房间,墙面不久前刚被刷得洁白,里边摆着椅子、三脚架和灯火器件。
有人指引他们坐在椅子上,面朝一部被固定在黑色三脚架上的手机,手机和眼袋者之间的间隔是25厘米,不能多,也不能少。每次开拍前,一名皮肤乌黑,身段微胖,长着厚道老实方脸的职工都会掏出卷尺,仔细再量一遍。
方脸职工叫张凯。量完间隔后,他需求用5部像素不同的手机摄影这些有眼袋的人。
在白光、黄光、暗光等不同光线下,张凯拍了四轮,加起来总共100张。一般状况下,他3分钟就能拍完,不会超越5分钟。
这项作业名为“数据收集”,眼袋者能得到一个价值一二十元的塑料大桶作为奖品。收集而来的相片、语音等数据,将会供给给人工智能企业,用于机器的练习和学习。
刚接下使命时,领导告知张凯,这次被拍下的500双眼袋,会用来给一款手机软件做测验,以便优化软件的美颜功用。但详细怎样测验、怎样优化,领导没说,张凯也没问。
拉对一个框能赚4分钱
上一年夏天,张凯有了孩子,他辞掉了本来在石子厂保护器械的作业,回家照料妻儿。一两个月后,张凯得从头作业养家,一家名为“千机数据”的公司正好在招人,“轻松、离家近、薪酬高”。
公司在县城东边一个建材广场的三层,从张凯的老家长桥镇开车过来,只用20分钟。他推开公司门的那一刻,空调的冷风灌进身体,面前的场景让他有些震动:几百名职工坐在棕色的沙发上,埋在电脑屏幕前,不停地拖动鼠标,敲击键盘,“像个大网吧”。
人力主管向他介绍说,公司首要做数据标示,简略来说便是给图片上的物体拉框框,只需会用电脑就精干。薪酬保底2000块,多劳多得。
张凯从没传闻过“数据标示”,也不了解为什么拉框。但公司环境好,不像曾经相同风吹日晒,当即决议留下来。
他被安排在一个有电脑的工位上。领导传来几百张厨房、餐厅的图片。张凯需求做的是:把图片上的碗、碟、杯子、筷子等餐具都框出来,然后选好特点、分好类。拉对一个框能赚4分钱。
张凯觉得很别致——把这些锅碗瓢盆框出来精干吗?但初来乍到,他没好意思多探问。
榜首天上班,张凯费力拉了几百个框。他不熟悉规矩,比方,三个堆在一同的碗,是应该一同拉一个框,仍是分隔拉三个框?
一周后,他现已熟练到每天能拉几千个框,挣100多块钱。时刻久了,张凯看什么都带框,看到家里厨房的锅碗瓢盆,他榜首反应是,框框应该从哪个视点拉?拉多大比较适宜?
才来三个月,张凯就开端应战难度更高的3D全景图。图片都是立体的,有多个平面,散布着各种车辆,有货车、小轿车、大巴车等,张凯要把车辆都框出来,再分门别类。
这项作业要有杰出的空间感才干完结。玩“穿越前方”(一款射击类游戏)的阅历帮上了张凯,那款游戏的场景也是立体的,常常需求切换视角来调查敌人。张凯没费多少力气就上手了。
作业了大半年,张凯就现已是公司最优异的职工之一,但他仍旧没问过,拉这些框是为了什么?“我的原则是,我赚我的钱就行,其他的不必管那么多”。
摄影有眼袋的人
“数据标示”的作业干了一年,张凯开端接手新使命“数据收集”。
收集而来的数据,将会被打包上传给人工智能企业,企业再把这些数据分配其他公司进行“数据标示”,最终再传回去,成为计算机的学习材料。这些材料能教计算机分辩车辆、厨具等不同的物体,让它们像人相同,去知道大千世界。
张凯的榜首项收集使命便是摄影有眼袋的人。公司给出的要求,卧蚕和黑眼圈都不行,年岁有必要在18岁到40岁之间。
找人从公司内部开端。500多名职工,只需领导在公司里呼喊一声,满意条件的就自觉曩昔排队。
职工拍完今后,再发起他们拉着自己有眼袋的亲朋好友来摄影。除此之外,公司还联络了各个村子有声威、分缘好的人,给他们中介费,让他们来帮助找。
一开端,张凯彻底分不清眼袋、卧蚕和黑眼圈。在他看来,它们都是堆鄙人眼睑的皮肤安排,只要喜爱熬夜或许上了年岁的人才会有。
为了这次摄影使命,张凯仔细研讨了许多张相片,总算搞了解这三者的差异:眼袋呈倒三角形,浮肿而松懈;卧蚕是椭圆形的,比眼袋小许多,笑的时分才显着;黑眼圈则是乌黑色的、平整的,不会像眼袋和卧蚕相同凸出来。
但有眼袋的人太少,一天最多只能拍十几个。公司决议把条件放宽,有卧蚕的人也能够参与摄影,这样一来,一天能拍到100多人。
摄影前,张凯少不了答复被摄影者的质疑。有人问,“相片上有咱们的正脸,你们会不会拿来做违法的事?要是把它们用来刷脸付出怎样办?”
张凯给出解说:“大街上那么多摄像头,假如拍几张相片就能用来刷脸付出的话,走在路上是不是也不安全?”
“咱们公司是正规的,在郏县开了两年了,几百号人,跟咱们协作的都是大企业,你就定心吧。”
参与过摄影的人将会成为公司的人脉。上一年夏天,公司接了一个大项目,一次性收集了两万多人的形象。
张凯的搭档苏乐丹参与了这个“两万多人的大项目”。项目在一间抛弃的二层工厂进行,以三十人或五十人为一组,排好队,顺次戴上墨镜、口罩或帽子,在一楼、二楼或室外转几圈,转完圈就能够获赠一口印有“千机数据”的铁锅。
摄像头固定在厂房的不同旮旯,苏乐丹的使命是,拿一个大喇叭,保持转圈圈的次序,让他们操控恰当的距离。
这个项目小孩白叟都能参与,苏乐丹叫婆婆也来,婆婆不了解为什么要转圈。苏乐丹解说,是用于摄像头的对焦测验,检测在不同场景、不同打扮下,摄像头能否辨认出同一个人。
但婆婆不能了解。苏乐丹拉着婆婆到村口,指着监控说,“便是测验这个能不能精确地拍到犯罪分子”,婆婆愿意了。
让AI知道苹果
兴办千机数据之前,公司的CEO刘洋锋也很少传闻“人工智能”这个词,他是公司学历最高的人之一,本年32岁。在他小时分,电脑仍是个稀罕物,他看郑少秋演的《大年代》,没被纵横捭阖的证券市场招引,只觉得每天坐在电脑面前敲键盘很帅。上中专时,他开端学计算机,次次专业课考试都是榜首名。
但进入社会后,刘洋锋的作业简直都碰不着计算机的边。他在重庆、云南和广东都待过,开过挖掘机、卖过饮料和化肥。他去过最远的当地是南美洲,在智利卖产自深圳华强北的山寨手机。
但他说,干计算机的愿望从没有被消灭。有时,晚上做梦也会梦见计算机。
从智利回国后,刘洋锋和两个发小凑到一同,预备创业。上一年,一个偶然的时机,他们在网上看到一个转让的“数据标示”的单子,这是刘洋锋榜首次传闻“数据标示”这个词。
刘洋锋先是试用了一下软件,在相片上框出了一个在马路上的行人,操作很简略。可他不了解“数据标示”是干什么的,网上搜不出多少信息,大部分他都了解不了,直到在一个网页看到这段话:
“要了解数据标示,得先了解AI其实是部分代替人的认知功用。咱们学习知道苹果,需求有人拿着一个苹果告知你,这是一个苹果。类比机器学习,咱们要教他知道一个苹果,给它一张苹果的图片,它是彻底不知道的。咱们得先有苹果的图片,上面标示着‘苹果’两个字,然后机器通过学习了许多图片的特征来知道苹果。”
刘洋锋懂了。他把“苹果”的比方讲给发小听,他们都觉得“这事儿能成”。
从上世纪50年代,美国科学家榜首次提出了“人工智能”的概念后,通过60年的技能更迭,人工智能已逐步渗透进人类的日子。
手机听懂了人类的言语,车辆学会了挑选最优道路,能绕过桌子腿、捕捉每一粒尘埃的扫地机器人走进了千家万户。而广为人知的人脸辨认技能,不只帮警方在张学友演唱会上先后抓到了多名逃犯,也在本年6月,帮四名迷路10年的孩子找到了家。
刘洋锋并不了解人工智能相关的技能,但从新闻上感觉到人工智能会是未来科技开展的新趋势。
他们仨一同凑了10万块钱,在县城租下了一间30平方米的单间,从郑州拉回了20台价值1000多块的二手电脑。然后通过微信群和朋友圈招了十几个职工。
乘着“人工智能”的春风,刘洋锋的单子越来越多,短短几月,公司租下了一整层3000平方米,能够包容数百名职工。除郏县外,还在郑州、许昌、平顶山等地也开设了分公司。
他不再“来者不拒”,有公司联络他谈收集项目,内容是让收集员摄影地上的废纸、果核、头发丝儿,包含猫屎,用来练习扫地机器人的视觉。刘洋锋拒绝了,“不能天天让职工趴地上拍猫屎,太奇怪了”。
流水线上的教师
千机数据现在共有500多名职工,大多都和张凯相同,本地人,年青,只要初中或高中学历,对电脑、互联网和人工智能没有太多认知。
刘洋锋招人最重要的规范要能“坐得住”。前不久,有个年青男生来应聘,说自己作业了两年,在郑州和姑苏都待过。刘洋锋直接拒绝了他,“两年就能跑两个城市,阐明十分不稳定。”
在职工中,女人占大多数,她们大多现已成婚生子。
上一年5月,刘研娜在朋友圈看到千机数据招聘电脑操作员的音讯,要求很简略,“18岁到38岁,男女不限,简略懂电脑,有上进心,仔细耐性”,“薪酬3000到8000,上不封顶,多劳多得”。
刘研娜的榜首反应是“哄人的”、“搞传销的”。在这座河南中部的小县城,像她这样只要中学学历的年青女孩,能找到的作业根本只要超市营业员、商铺导购或是饭馆服务员,月薪不会超越2000块。直到来公司转了一圈后,刘研娜才放下顾忌,成为“网吧”的一员。
刚来的时分,出于猎奇,刘研娜向身边的搭档探问,拉框是为什么?没人答得上来。大多数人都只是垂头干事,不关心这些。直到有一次,领导在开会时偶然说到,这些数据首要“为人工智能服务”,她才似懂非懂。
8月8日上午,公司门口,张凯拿着一部手机,正在测验一项新的收集使命。在背光、偏亮和正常三种光线下,被收集者别离作出了快乐、讨厌等表情。作到“惊奇”时,张凯提示他,“眼睛瞪大点”、“嘴巴再翻开一点”。
上个月,张凯升任了主管,曾经六点半就能按时下班,现在晚上十点回家成了常态。
到千机数据作业后,张凯成为了全家离高科技最近的人。
他的母亲在东莞工厂的流水线上作业,父亲在深圳做装饰、铺地板砖。弟弟本年19岁,高中还没上完,就一个人去新疆卖手机配件了。妻子本来在郏县的一家超市当导购,上一年生完孩子后,在家当家庭主妇。
刚找到作业时,家人和朋友都会问他,这份作业是干什么的?他的答案是:标示是坐在电脑前拉框,收集是天天给他人摄影。其他的,张凯不会多说,家人也不会诘问。
张凯在长桥镇的一座小村庄长大,家家户户都种玉米、小麦和花生,那个年代,很少有人知道“电脑”是什么。等上了中学,同龄人都喜爱泡在网吧玩《梦境西游》,他不喜爱那款游戏,由于游戏“靠命运、要砸钱”。他只好一个人在宅院里摔“纸面包”、蹦弹珠。
张凯念完初中后,跟妈妈一同去了东莞,后来又到了深圳、泉州,他干过最长的一份作业是对讲机拼装。四年的时刻里,张凯用手指把许多块铁制的电池片压进了对讲机盒子里,这些电池片和喇叭、天线、主机板一同,组成了不计其数个对讲机,销往世界各地。
苏乐丹和张凯有过类似的阅历。2005年,她跟表姐一同去了广东,在电子厂做过品鉴、在宝石厂穿过珠子,每天从早上七点半作业到晚上七点半,一个月歇息两天,月薪800多块钱。
对张凯、苏乐丹和千机数据的其他普通职工来说,他们现在收集、标示的数据,和穿过的珠子、压过的电池片没有什么不同,都是流水线上的一个部件。
仅有的不同是,他们知道珠子怎样穿成手串和项圈、电池片怎样和其他部件组成对讲机,但不知道数据要怎么“喂”给机器、机器要怎么学习。
张凯到了千机数据之后才榜首次传闻“人工智能”这个词,即使现已升任主管,他对作业的知道也只停留在“为人工智能供给前期数据”。
在通往公司的楼梯间,贴着几张巨幅海报,海报上都是机器人和电脑,看起来科技感十足。刘洋锋把“人工智能怎么知道苹果”的那段话也印在了上面,张凯一次也没仔细读过。
“万物皆可AI”
旧日流水线上的工人,成为了教“人工智能”知道苹果、桌子、椅子的榜首位教师,把认知事物的阅历浓缩进一张张图片中今后,他们对人工智能也开端有了更敏锐的感知。
本年6月,张凯榜首次坐上了高铁。他兴奋地发了朋友圈,配了一张高铁时速304km的图片,说:“这玩意最快能跑多少?”
进高铁站时,张凯拿着身份证和高铁票,通过一道需求人脸辨认的闸机,摄像头对着他的脸扫描了几秒钟后,显现“请通过”。他忽然想到,曾经做标示时做过人脸标点,会不会应用在了这上面?
两年前,张凯花8万块买了一辆小轿车,出行时,常常用到车载语音体系。现在,他了解了语音体系之所以能顺畅运作,是建立在许多的语音收集、标示基础上的。
刷到跟人工智能相关的新闻时,张凯也会翻开看。他对一个“5G年代高科技抓逃犯”的视频形象深入,视频里,地铁站的监控能捕捉到每一个行人的面部信息,精准地辨认出犯罪嫌疑人的样貌。
偶然,张凯也有忧虑和惊骇。前几天,他看到有品牌出了一款能主动系鞋带的运动鞋,他无法了解,连系鞋带这样简略的事都要靠机器来做,那人该干什么?
“科技假如开展得太快,会筛选掉许多东西”,张凯最忧虑的是,机器会代替掉那些流水线上的工人,他们都会赋闲。
2017年,李开复曾揭露表明,“一项本来由人从事的作业,假如能够在5秒钟以内能对作业中需求考虑和决议方案的问题作出相应的决议,那么,这项作业就有十分大的或许被人工智能悉数或部分代替”。
他猜测,翻译、出售、司机、家政等作业,未来10年将有约90%被人工智能悉数或部分代替。“可是,还有许多人所特有的、归纳本质的技能是无法被代替的。此外,由于人与机器产生了新的协作方法,还会呈现新的作业类型。”
同年7月,国务院发布的人工智能方案提出,到2030年,我国要成为人工智能立异中心。工信部教育考试中心副主任周明曾向媒体泄漏,我国人工智能人才缺口超越500万人。
张凯觉得,像他们这样做数据收集和标示的工人,很难被代替。“究竟机器还要通过咱们来学习,梦想一下,假如机器会自己学习,那就阐明它们现已无法把控了,这很可怕。”
刘洋锋也考虑过这个问题。前几天,在承受电视台采访时,他把人工智能工业比作了一个人,“算法工程师他们担任的是大脑,而咱们担任的是四肢”,二者都不行或缺。他们公司收集、标示好的数据,要通过一套特定的算法加工,才干喂给机器,算法是人工智能中最中心的部分。
刘洋锋也忧虑,究竟“接受的都是重复性的作业”。他想,跟着技能的开展,本来需求一万张相片数据才干完结的学习,或许只需求五张相片就能完结,到时,他们的作业量将会面对大幅削减的状况。
为了避免这种状况的呈现,刘洋锋开端把事务向高端化、专业化搬运。上一年,他接受了一项医疗数据项目,需求对病例进行剖析,公司的职工都做不来,他在网上找了几十个医学研讨生来做兼职。
刘洋锋忧虑被筛选,他加了许多人工智能相关的学术交流群。来自清华、北大等闻名高校的教授和研讨生们,常常会在里边更新研讨进展,或是转发研讨论文。
刘洋锋每条音讯都会点开看,再转到朋友圈。群里发的许多论文都是英文,刘洋锋看不了解,就用电脑自带的翻译软件一句一句地翻。有些文章的专业性太强,刘洋锋就只看摘要和那些跟数据处理相关的部分。
作用很显着,“曾经都是工程师们说什么便是什么,现在我至少能够从专业的视点,来和他们讨论一些东西,比方数据收集、标示的详细要求等等”。
但碰上算法的问题,刘洋锋就没辙了。一次,职工们忙活了一个星期,做完了一个人脸标点项目,每张脸上标84个点,总共一万张图。对接的部分打包验收完今后,算法工程师却说,有几个点的方位与算法的要求不符,需求调整,有必要打回来重做。刘洋锋只好带着职工们多干了一周,并多发了一份薪酬。
在刘洋锋曩昔的人生中,人工智能奥秘、别致且遥不行及。短短两年,他发现,“万物皆可AI”。比方,手机里的视频软件,录制时的美颜功用要靠人工智能,加特效要靠人工智能,给用户推送的内容也要靠人工智能。
和张凯不同,刘洋锋等待那个充溢人工智能的未来。创业这两年,公司接了许多无人驾驶的项目,框出了数不清的路标、红绿灯和斑马线。刘洋锋看着这些图片,常常梦想,有朝一日能买一辆无人驾驶轿车,坐进车里,动动嘴,把目的地告知体系,然后倒头大睡,车子便把自己送到目的地。
“那一天必定不会太远”。