绵阳网赚论坛

3.8亿做营销的猪兼强 工资发不出总部人去楼空_绵阳网赚论坛

admin 2019-08-04 08:06 新闻公告 0 评论

手机看新闻赚钱任务平台随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于MaxCompute做媒体大数据开放平台建设。

演讲嘉宾简介:

李金波,新华智云首席数据官。负责阿里巴巴大数据通用计算平台MaxCompute(原ODPS)框架架构。对高可用分布式系统设计开发有多年经验。先后研发过阿里巴巴机器学习平台在线预测系统和通用大数据计算平台框架系统。

本次直播视频精彩回顾,戳这里!live/796

以下内容根据演讲嘉宾视频分享整理而成。

本次的分享主要围绕以下五个方面:

一、关于新华智云

二、数芯-媒体大数据开放平台

三、媒体大数据平台能力

四、Project依赖

五、几点小提示

一、关于新华智云

新华智云是新华社与阿里巴巴合资成立的一家公司,主要面向运用大数据和人工智能技术,致力于为媒体行业赋能。随着自媒体的发展,自媒体公司非常的火热,如今日头条,抖音等。对传统媒体来说,面临着巨大的压力和挑战。传统媒体急切的希望互联网的技术帮助他们赋能。

媒体大脑-数芯

媒体大脑是新华智云底层的产品品牌,数芯是媒体大脑基础的数据平台。数芯定位为媒体大数据开放平台,平台中包含了媒体行业所依赖的各种各样的数据。数芯希望通过平台本身的数据处理能力和算法加工,将挖掘的有价值数据内容和能力开放给上层用户。目前,数芯包含了各种各样的数据,涵盖了400多万互联网站点,主要以中文站点为主,日增7千万文章,包含微信公众号,微博账号,图片以及多媒体来源等。将不同来源存储在平台中,之后对接数据,进行更多的加工和运用。“数据已经不再是一种成本,而是成为一种生产资料”,这句话在媒体行业更能够有所感受。一篇新闻除了是新闻之外,还是一条数据,同时新闻本身又会衍化产生新闻。很多媒体公司利用互联网技术获得大量的新闻内容之后,辅助他们新闻的生成过程。数芯会将媒体数据从不同的源头,不同供应商,以不同内容格式存储到平台中,进行数据清洗,结构化,加工等等一系列的操作之后,生成有价值的内容。如,这段时间之内媒体关注的热点,互联网上发生的事件,同时识别新闻和机构之间的关系,基于实体将各个渠道上的数据整合起来,为用户提供统一的视图。用户可以看到信息的发酵过程,以及信息在什么地方传播。

二、数芯-媒体大数据开放平台

数芯是一个开放的大数据平台,开放的点主要有三个方面。第一,数据的开放。任何数据进到数芯之后,都会在整个大数据处理的链条中做计算,内容结构化,加入标签。同时基于用户感兴趣的数据范围,做标签的特征过滤,筛选用户想要的数据。数芯帮助用户了解互联上的信息,了解互联网上与自身相关的事件。第二,数芯提供智能能力的开放。用户不管怎么努力,不可能获取到互联网上所有的数据;而且不可能每个公司都会自建内容大数据平台,做数据分析,也不可能都配备算法工程师;而且公司的数据处理能力也不是足够强;媒体大数据平台可以帮助用户将与他们有关的数据加工好,通过算法能力获得用户关心的信息。如用户提供一个文章,数芯可以反馈这篇文章与谁相关,相同的文章在什么地方传播,文章由谁编写,发在什么地方等等信息。通过开放算法能力,帮助用户做数据能力和算法能力的应用,提供文本反垃圾服务,互联网内容结构化服务,文本内容实体识别服务,文本去重判定服务,图像人物识别服务和图像标签化服务等等。第三,产品能力的开发,包含舆情监测能力,版权检测,传播分析等能力。

媒体数据特征

媒体大数据有三大特征,第一,媒体数据是非结构化性非常强。与传统行业数仓最大的区别是媒体行业90%以上数据都是非结构化的,如文本,图片,视频等等。第二,数据来源多样性。媒体行业数据有多种外部的数据源,它们有不同的数据提供的方式,提供不同的数据能力。所以必须要有强大的数据汇总能力才能将所有数据汇总在一起并服务好下游客户。另外,数据效性要求非常高。媒体行业天然追逐新闻热点,假如知道一个事件是潜在的热点,媒体希望第一时间对热点进行追踪,报道和解读。媒体机构希望通过数芯平台,能够最快的发现互联网上发生的事情,发现热点之后以最快的方式,将结构化后的数据给到用户。

批流处理结合

基于媒体行业数据的特征,数芯平台采取批,流结合的方式解决目前客户和业务场景对数据的要求。批指的是大量的计算,基于平台特征完成复杂的模型,算法训练,长周期计算,文本实体识别,文本挖掘,借助批量的能力解决数据更深度,更大规模的加工。流指的是流式的计算,完成数据的清洗,结构化,轻计算和实时统计。出来一篇新闻,在整个新闻流传的过程中实时的将信息处理好。目前数芯整体的流计算大概需要300毫秒,即一篇新闻从源头过来,存储到平台,服务化出去中间需要经过300毫秒的时间。

批流结合的数据架构

数据从不同数据源过来,如API,OTS,ROS,log,file等,一方面数据要在实时计算当中做URL去重,正文结构化,标记来源,垃圾识别,实体识别和轻度的实时统计。另外基于MaxCompute,利用DataHub将数据存储在批处理平台中,由于流计算本身不做持久化存储,所以所有数据都将存储在MaxCompute上。数据存储之后做主题建设,关系挖掘,知识图谱计算,算法训练。通过批流结合的的处理方式能够满足客户对数据本身能力的需要。之后,给用户提供搜索能力,大屏能力和BI能力等。

三、媒体大数据平台能力

内容结构化

人们在网页当中看到一篇新闻,而在数据库当中新闻是按字段存储的。比如,分为新闻标题,发布网站,时间,新闻来源,情感等等。平台需要将新闻信息进行结构化,成为后续计算过程需要依赖的数据结构化字段。

主题构建

媒体行业会分主题建设数据。平台会获取到不同的数据源,不同类型的数据。这些数据不可能完全的结合在一起,数芯平台会将所有数据分门别类的分成不同主题,按不同主题建设,存放和加工。媒体是一个非常复杂的行业,对各个行业的数据都是有所诉求,媒体需要挖掘很多不同行业的数据支撑新闻生产和报道。目前,数芯集中在媒体内在的数据,体育,金融,气象等几个主题。数芯一方面将不同的数据源汇总到平台当中,另一方面数据进来之后,挖掘潜在的新闻点,生成选题策划,帮助用户做选题等等工作。

实体识别

实体识别对于媒体大数据来说是最基础的能力。数芯目前积累的实体围绕人,机构,地点等三类数据。新闻行业,媒体行业会围绕某一个实体,关注与实体相关的数据能力。比如,很多公司会关注和自己相关的咨询,关心这些新闻是正面还是负面,哪些机构会发正面的信息,哪些机构会发负面的信息等。只有当将大批量的数据汇集起来之后,才能做相关内容的分析。实体识别场景在媒体大数据领域是非常基础的能力,首先,建立实体库。同时,当有一篇新闻产生,数芯需要实时的识别新闻与哪些人,机构和地点相关。另外,数芯需要汇集实体之间关系,做实体关系图谱。比如,很多品牌会瞄准自己的竞争对手,调整品牌战略,实体关系图谱对很多公司品牌运营的推广有很大的帮助。

情感分析

情感分析也是媒体大数据平台中比较通用的能力,当一篇新闻出来之后,用户需要知道是情感上褒义还是贬义。信息数量少的信息可以人工判断,但是如果每天有上千篇,上完篇的内容就无法通过人工来判断。媒体行业的情感分析与学术上的情感分析有差异。目前,自媒体出来之后短文本的内容越来越多。短文本的情感分析和长文本的情感分析不同,以往都是采用同一个算法实现情感分析,但发现效果并不好。现在,数芯将情感分析场景分开,微博短文本的情感分析用Word2vec+LSTM,新闻类的长文本的情感分析用Word2vec+CNN+RNN。分开之后发现每一类情感分析的效果都有所提升。

内容去重

内容去重是媒体大数据平台非常重要的一部分。去重能力是对于常见的新闻摘录,编辑,删减有准确的判重能力。一篇新闻并不是只由一个人写,它会被很多机构和渠道所转发。如何知道一篇新闻在哪些渠道被转发,其实就是通过去重的方式实现的。通过从大量的渠道汇集数据后,平台需要比对一篇新闻与之前哪篇新闻相似,通过相似度的比对得到结果。最早的时候,去重是基于关键词进行比对,数芯采取关键词和语义,两种方式比对,去重效果明显提升。内容去重可以用于新闻的热度计算,新闻数据顾虑清洗,文章版权追踪等业务场景。

内容标签化

搜索引擎可以用来搜索新闻,通过关键词和文章的匹配度来决定这篇内容是否推荐给用户。但纯搜索的方式已经满足不了用户家的需求。今日头条之所以成功,是因为它基于新闻和用户的习惯推荐内容。内容标签化就是通过机器的方式理解新闻,理解新闻与哪些信息相关,基于文本挖掘的手段,实现对于全网采集的内容数据进行分类打标。

四、Project依赖

很多时候,使用大数据平台要不要分项目都是一个很难的抉择。不分项目的好处是开发人员都在同一个平台工作,互相之间不需要太多的授权,整体工作效率会比较高。分项目的好处是利用不同平台做不同的业务会更清晰,更具条理性。数芯在开始使用MaxCompute时,便采取分项目方式,其考虑的原因有以下三点。首先,分项目可以区分业务优先级,避免低优先级任务影响高优先级的数据产出。另外,可以区分资源消耗型,避免出现高资源消耗任务整体影响数据产出。还有区分内外服务,避免内部服务互相交叉影响。总体上,分项目可以为数据产出的稳定性提供很好的保障。

五、几点小提示

首先,由于媒体行业大部分数据都是非结构化的数据,会造成对单字段的容量要求比较大的问题。而且不同的平台和传输工具对于数据的字段大小的限制不同。在从不同平台做数据传输时,尤其需要关注这个问题。

第二,能用UDF解决的问题,不要使用MR。使用UDF可以提高开发和运维的效率。即尽量用简单的表达式处理逻辑,这对整体数据产出稳定性有好处。

第三,对查询效率要求不高的数据报表可以直连MaxCompute,减少中间环节。如此可以大大减少数据转换和数据维护成本。

第四,Datahub一方面可以接数据源,另外还可以较好的串联批,流之间的计算流程,保持数据一致性和形成依赖。

第五,合理设计批,流的数据处理分工,减少重复计算。

第六,媒体大数据经常需要运用不同的算法,PAI可以帮助解决很多算法问题,减少开发的工作量,提高数据处理的效率。

#阿里云开年Hi购季#幸运抽好礼!

点此抽奖:【阿里云】开年Hi购季,幸运抽好礼

原文链接

本文为云栖社区原创内容,未经允许不得转载。

  原标题:猪兼强难“坚强”!明星创投加持,3.8亿做营销,如今工资发不出,学员退款难,总部人去楼空…

  来源:每日经济新闻

7月31日,深圳,一辆公交车车身上的猪兼强广告。图片来源:受访者提供

  在广东多座城市,你随时都可能看到“猪兼强”的广告。而如果第一次看见猪兼强这几个字,则很难想到它是个学车平台。

  然而,高速发展也埋下了一些潜在隐患,近日深圳猪兼强互联网科技有限公司(以下称深圳猪兼强)爆出退款难等问题,随后又有不少学员向深圳有关部门投诉并要求退款,深圳猪兼强原南山总部已空空荡荡。

  7月31日,猪兼强给出了态度,承诺在签订合同解除协议后30个工作日内退还款项。不过,这个快速跑马圈地的互联网驾培公司,在利润较低、分公司退款浪潮压顶、大额资金因诉讼被冻结的情况下,未来是否能够一直“坚强”下去,需要时间来检验。

  投诉与“撤离”

  猪兼强2016年7月正式迈入深圳学车市场,在运营3年之后的2019年7月,却陷入了舆论的旋涡之中,不仅有公司被投诉的新闻接踵而至,退款难的现象也受到网友的“口诛笔伐”。

  李晓芳(化名)就是猪兼强的准学员之一。她在不久前的4月,通过电商渠道报名了猪兼强,但是直到7月底仍没有拿到流水号。

  “是朋友推荐的,之前催过好几次(发流水号),基本隔一个月就问,每次都说帮我查下,后来就出事了。朋友目前也只是拿到了号,还没有进展。”李晓芳告诉每日经济新闻(微信号:nbdnews)记者,到了8月1日,她决定与猪兼强签订退款协议,并得到对方全额退还5480元款项的承诺。

  多位接受记者采访的猪兼强学员都讲述了类似的情况:或是报名几个月没有流水号,或是出了流水号但约车困难。今年7月19日,众多学员开始前往深圳猪兼强南山区总部要求退款。此事被媒体报道后,深圳猪兼强的资金链紧张问题也随之浮出水面。

  猪兼强接受学车报名的途径有多种,其中相当一部分是通过猪兼强官微报名的。据部分学员向记者反映,天猫和京东也可以报名,此外也可以在门店报名。不过,深圳猪兼强退款难事件爆出后,天猫上的相关产品已经下架。

  7月31日,记者来到深圳猪兼强工商注册地——深圳市南山区粤海街道高新南六道8号航盛科技大厦19楼19F室。记者在此看到,房间内所有陈设已消失,空空荡荡,只有大门上留下一纸公告:从7月29日起公司便不再于此地办公,办公场地搬至宝安区沙井麒麟花园三期训练场。

  7月31日,记者来到深圳猪兼强原总部所在地已搬空。

  值得注意的是,一位去过沙井训练场的猪兼强学员称:沙井的猪兼强也撤离了,30日那天在场地看不到什么工作人员。训练场门口还被贴了一张公告,称深圳猪兼强已拖欠该场地租金1个月以上,物业多次催讨后也未有积极回应。该物业还表示,将保留向深圳猪兼强追偿的权力。

  7月31日中午,记者来到深圳猪兼强上梅林练车场地,发现很多学员都聚集到这里。

  猪兼强相关负责人在此进行了公开回应,并组织想要退款的学员签订合同解除协议书。每日经济新闻(微信号:nbdnews)记者从现场获悉,根据猪兼强给出的解决方案,主要分为拿到了流水号、没拿流水号两种情况,其中没有拿流水号的会全额退款,拿了流水号如果解约要扣掉20%的费用。

  退款何时到账呢?猪兼强工作人员表示需要30个工作日左右。现场一位报名学员赵先生告诉记者,他本人6月24日就签订了解除协议,至今没有退款成功,按照猪兼强工作人员说法,30个工作日是排除了休息日,算下来就是40天左右,但赵先生对按时得到款项仍然心存疑虑。

  针对可能出现的退款不到位情况,湖南闻胜律师事务所律师刘凯认为,猪兼强退费与之前共享单车押金退费情况有些类似,“就看这个平台公司是不是有足够的偿还能力,如果没有,可能即便签订了退款协议,日期届满时也拿不到钱。假如确实是这样,对于相关的学员来讲,一方面可以通过自力救济的方式找平台公司进行赔偿——但这个可能不太现实,更多的是要通过民事诉讼的方式,向平台公司进行索赔。”刘凯也坦言,若通过民事司法程序,周期会比较长,并且也存在判决平台公司偿还后,公司却没有支付能力导致判决一时得不到履行的情况。

  教练称也被平台拖欠工资

  用猪兼强的话来说,4000万元的资金被冻结是引起这次“退款潮”的直接原因。深圳猪兼强称自今年5月份以来,与一个重要合作伙伴产生法律纠纷,大额资金被冻结,造成部分学员出流水号的周期较长。有多位学员甚至称,有些猪兼强员工的工资都被拖欠。

  杨志强(化名)是深圳本地的一位司机教练,从业5年,2018年12月他通过友人了解到猪兼强,同时在其官方微信上注册了教练账户,“我们属于合作的形式,在猪兼强的平台上接单带教,没有劳动合同,全深圳大概有70或80个这样的教练。”

  “猪兼强已经拖欠了(我们教练)两个月工资,多的(被拖欠)有一两万,少的有三四千。现在猪兼强退款的学员每天都在排队,肯定是没钱给我发工资了。”杨志强对得到工资的预期并不高,“之前每个月都有拖延,但是(当时)有管理人员出来说话,这次直接就没人理。”

  杨志强还认为,猪兼强的运作模式本质上是一个第三方平台。

  近期深圳市交通运输局发表的声明也显示,深圳猪兼强只进行了商事登记,并未取得由其核发的《道路运输经营许可证》。此外根据记者获取的一份猪兼强协议书显示,学员跟猪兼强签订的是一份“驾驶培训质量跟踪服务协议”也就是说,猪兼强本身并无驾培资质。

  谈起当初为何入驻猪兼强平台时,杨志强坦言,主要是希望通过这种方式充分利用自己的空闲时间,“自己签约的驾校没学员的时候,我们的所有开支是由自己承担的,成本主要包括油费、车辆维修保养、保险和场地租金等。”

  而据杨志强透露,“深圳猪兼强有几个直营场地,现在还包括上梅林、坂田、公明、南山和布吉等,但是没有自己的教练车,都是用其他驾校的车。”

  一个需要学员,一个需要教练,双方正好互补。

  具体到接单教课环节,杨志强介绍说,学员预约后会有一个短信通知,“收到通知短信,就登录公众号,点确认接单,就可以看到学员的电话号码,学员也可以看到教练的电话号码”。

  猪兼强之前能够具有高人气的原因之一是低价。

  杨志强告诉记者,猪兼强很多学员按照4980元课程标准收费,其他驾校,同班别的收费都在5680~5980元,由于猪兼强支付给教练的课时费也并不低,他认为这个价位盈利的压力很大,每个学员大约只能让公司盈利500元左右。

  据杨志强介绍,由于年初是报名旺季,仅3~5月就有将近8000人报名。如果以4980元为底价,仅仅这3个月,猪兼强现金流入账就约有4000万元。

7月31日,报名猪兼强的学员在上梅林场地商议退款事宜。

  快速扩张考验公司能力

  近期没有去过广东的人,没法体会猪兼强铺天盖地的广告。网络、路边广告牌、甚至公交车上都有猪兼强的身影,密集的广告投放是其扩张的一大利器。多位学员就对记者表示,报名猪兼强很大程度上是看到平台有那么多广告。

  实际上,大规模广告投放的背后或也是因为驾培行业的广阔前景,资料显示,2013年~2017年,我国车辆驾驶员数量由约2.19亿人增至约3.42亿人,复合年增长率达11.8%。

  与密集的广告投放相符的,是猪兼强之前的发展历史——似乎完全可用“光鲜”二字形容。顶着这个知名互联网驾校的光环,猪兼强也一度成为资本眼中的“宠儿”。

  2015年1月猪兼强正式进入驾培市场,2016~2017年就完成了三轮融资,获得广发信德、文投创工场等多家国内知名投资机构的投资,累计融资额达2.4亿元。

  2016年,《南方都市报》一篇报道提到,因售前承诺未兑现,猪兼强遭集体投诉。具体情况则与当前深圳猪兼强出现的情况惊人相似。文中指出,猪兼强当初承诺4~6个月拿证,但不少学员报名已超4个月尚未办理注册入学籍。

  猪兼强联合创始人蔡勇劲当时表示,这是公司发展速度与质量的问题,“由于后来宣传吸收大量学员,加上政策的一些变动,使得猪兼强平台难以消化庞大的考学压力”。

  与此同时,在新浪黑猫投诉平台上针对猪兼强的投诉并不在少数,记者梳理发现,仅仅今年6月份以来,该平台上就累积了超过40起关于猪兼强的投诉,投诉点主要在于约车时间长、联系不上客服等多个问题。天眼查显示,猪兼强自身也存在很多风险,截至今年8月1日,公司自身风险有16条,周边风险有152条之多,其中还有多条清算信息,比如深圳猪兼强的清算信息。

  记者获取的一份猪兼强深圳地区报班宣传页显示,“新规无忧班”和“新规无忧模考班”出流水号时间为35天,其余三种均为7天就可以拿流水号。而目前来看,这与多位学员反映的情况并不相符。

7月31日,深圳上梅林培训场地内,深圳猪兼强公司的牌子还挂着。

  猪兼强还能“坚强”起来吗?

  香颂资本执行董事沈萌告诉记者,退款难是因为无钱可退。这类平台收的钱大部分被应用于规模扩张,类似互联网模式都属于钱滚钱、烧钱冲规模,“所以一旦因为业务模式或政策风险甚至经济走势发生变化,资金链断裂就会轰然倒塌。”沈萌认为,“退款潮”出现的原因,一方面是资金短缺,另一方面是没有融入新的资金,容易造成企业经营“休克”,发生资金链断裂的危机。

  另一方面,2018年以来,猪兼强并未公布自己新的融资情况,其引以为傲的大额融资事件,停留在了2017年。

  艾媒CEO张毅认为,猪兼强商业盈利模式比较简单,通过签约练车,赚取中间差价,而最近出问题,从根本上可能和获客成本较高有关。“广告投入的成本非常大,而且要完成一个订单需要学员最后拿到驾照,这个周期很长,中间需要非常大的流动资金。”张毅认为,如果企业还没有大规模盈利,对资本非常依赖,资本后续又没有跟上话,出问题在所难免。

  记者通过采访部分学员发现,相比于其他驾校的同类型课程,猪兼强的报名费用确实更便宜,且承诺提供“一对一”服务。对此,张毅分析道:广深一线城市获得驾照的平均时间长达一年左右,“一个客户在手中时间很长,且本身价格并不算高,随着时间周期增长,对应的人员(教练、客服)提供服务的时间越长,摊销这个成本就需要引入学员数量,自然就需要打出足量的广告,这就会提高获客成本。”有报道称,猪兼强曾对外号称投入了超过3.8亿元的品牌营销费用。

  快速扩张引爆了潜伏的“雷区”,虽然公司认为主要原因是4000万元冻结资金压顶,但这无疑也暴露出猪兼强较弱的“抗风险能力”。

  在张毅看来,平台本身运维成本不高,但由于其收费标准相对较低,造成与第三方驾校之间相对较低的价格差,唯有靠规模维持收益。与此同时,如果选择自己经营,又涉及准入资质的问题。张毅建议,经营过程中要特别把握好规模和利润的关系,“尽量回归收缩战线,做好利润、求稳,从长期发展来看,不如把一些亏损的项目直接砍掉,以避免更大的损失。”

  但不是所有员工都能经得起此类事件的考验,正如一位猪兼强学员所说,当发现网络充斥着相关报道时,他的直接客服就电话不接、微信不回,仿佛突然消失,再加上网上不断出现的负面报道,他的内心产生了波动:“如果能够好好沟通,我可能就不会来退款了。”

  或许对于尚处于舆论旋涡的“猪兼强”来说,“坚强”不仅仅意味着实现企业在规模和效益上的持久发展,更重要的是它还代表着一家企业对于消费者的坚定承诺。

  记者丨 刘晨光 编辑丨文多郭鑫

]article_adlist-->

责任编辑:张迪