开始于2015年的SODA大赛,其全称为上海开放数据创新应用大赛(Shanghai Open Data Apps),而英文缩写恰为苏打水(SODA),因此有着趣味的寓意:数据如封装在瓶子里的苏打水,看上去悄无声息,但一旦打开瓶盖,就能迸发出无穷能量,催生创新的气泡。
Read this article in English
在过往的两年中,SODA就“智慧交通”、“城市安全“等主题开展了系列赛事,与30家政府机构和企业进行数据合作,解锁了高达4TB共计64个数据集。而在帮助企业和政府发现问题解决方案的过程中,共计产出了852个数据创新应用,横向覆盖了交通、金融、社会治安、食品等多个领域,汇聚了近4200人次数据创新人才,助力了至少2家中国创业企业、1家英国创业企业融资,融资金额累计超过千万美元。而SODA自身则在服务过程中,摸索出了一套可复制的成熟运作体系,逐渐成长为了一个超脱于上海地域之外,代表中国,接轨国际的数据创新品牌。
要说起这一切的开端,则要从14年那场发生在上海,由政府主导的“不那么成功”的数据创新大赛说起。
2014年的秋天,一场由上海市经济和信息化委员会主办的上海大数据开发创意大赛刚刚落下帷幕,夺得桂冠的创意应用“金金回收” 试图借鉴时下流行的分享经济模式,来解决垃圾回收利用效率不高的问题。虽然大赛的一项初衷是期望通过赛事众包各类创意,从而通过创意反向推动某些政府部门能够开放数据,但令人失望的是,赛事在提供数万元的现金奖金之后,一直未能帮助项目团队获取到相关的垃圾回收数据,使得应用迟迟无法落地实现,这也使得“金金回收”的指导老师,上海交通大学的金耀辉教授深感遗憾。
而实际上,彼时数据开放在中国仍是一个极其小众的话题。虽然上海自2011年起便率先开始推进相关工作,但一直以来,数据开放工作都未能做到真正的需求驱动,能开放的数据往往都无法满足开发者的应用需求,而有价值的数据则找不到方式方法来开放。另一方面,中国推动数据开放的主要着力点在于刺激创新创业之上,讲究的是数据开放的效益产出和利益回报,这就与同期欧美主要从法律和政治角度来“硬性”推进数据开放,有着文化环境上根本的差别。而如何找到各个握有数据资源的机构的利益诉求,帮助他们在开放数据的同时获得回报,就成为了中国推动数据开放的关键。
对于这一痛点,在政府内长期工作于信息公开和数据开放的张柏军有着深刻的认识。2015年春,刚刚从政府离职而加入中国工业设计研究院任副总裁的他,召集了一场小型的聚会,主题便是如何从市场的角度来举办一场数据创新赛事,助力政府的数据开放工作。与会者都是上海开放数据圈子里的“老朋友”,上海交通大学的金耀辉教授、复旦大学数字与移动治理实验室的郑磊教授、美蒽朗公司的王志永以及代表开放数据中国的笔者,分别从商业、技术、政策、城市科学、民间社群等不同角度对上海的开放数据发展以及14年的大数据开发创意大赛做了反思,并决定形成一个临时组委会,调研国外开放数据类的大赛,从而借鉴欧美方法,找到一条适合中国国情的赛事道路,而这就为SODA的正式诞生奠定了基础。
纵观当时的国际赛事模式,其中较为突出和成熟的分别是由英国开放数据研究院(Open Data Institute)和英国国家科技艺术基金会(Nesta)所举办的开放数据系列挑战赛(Open Data Challenge Series),以及由纽约市政府牵头的BigApps。前者就环境、食品等7个主题滚动式开展赛事,每次赛事开展中,都将对当前政府及企业已经开放的数据进行详尽的调研并为参赛者准备详细的数据清单和说明,帮助参赛者能够利用这些数据产出可行的方案,并通过5个月的孵化期成长为真正赢得市场的创业项目。而BigApps则先后尝试过板块主题和具体命题两种不同的引导模式,不限定数据的来源但鼓励用已开放的政府数据为原材料,针对纽约市具体的问题开展创新。在这两种不同赛事中,共通的地方都是先有开放的数据,而后有大赛来侧重加值利用这些数据,但对于没有那么丰富开放数据的中国,该如何更好开展数据类的大赛呢?
在当时,上海虽已利用4年时间打造了DataShanghai(www.datashanghai.gov.cn)这一开放数据门户,但至2015年,开放数据门户仍旧只有静态数据的积累,还未能围绕特定主题释放出高价值的动态业务数据。在这样的背景下,显然如果完全照搬英国或美国的模式,则又会重走14年大数据开发创意大赛的老路,即使找到了优秀的创意,也无法让那些点子真正实现。因此,针对这一难题,SODA的组委会提出了数据众筹的概念,期望通过一种试验性的方式将一部分赛事所需的数据先行众筹进一个虚拟的数据池,通过比赛加值,再反向去探索长期开放的道路。
但在这个过程中如何去说服不同机构参与进赛事数据的众筹,则是一件不简单的事情。而其关键点就在于大赛如何搭建起一套操作体系,使得数据提供单位的数据能够在满足应用需求的同时,安全可控地在赛事环境中流通。在这一点上,SODA设计了一套“自我审查,联席评估;初赛样本,复赛全量;加密传输,授权控制”的操作方法。
在赛事筹备时,组委会将根据年度赛事的主题和开发者反馈的数据需求来综合产出一份数据清单,列明数据的具体字段要求,并规定所有数据应当在一个指定的时间范围内,不同数据间应当保证最小有一个月的片段数据可以重叠,空间上也要能够互相有交叉重叠便于多源数据的比对交叉分析。而这份数据清单则将提供给相应的政府机构或者企业,由他们结合自身数据基础判定哪些数据存在于信息系统中,再根据具体的安全规范确定哪些数据集可以面向赛事完整提供,而哪些数据集又只能提供部分字段。而当所有单位向组委会反馈了数据的情况之后,SODA会邀请数据提供单位召开数据安全的联席评估会议,重点针对数据交叉后可能带来的安全隐患进行评议,确定最终的数据清单,并由数据提供单位和SODA签订数据协议。而数据提供单位所提供的数据汇总后,则将由SODA对数据再进行一轮技术评估,确保技术层面上数据脱敏已完成。
解决数据提供单位如何安全拿出数据之后,所需要寻求的就是数据安全流通与数据开放程度间的平衡。在当时,国内较为流行的赛事如阿里巴巴举办的天池大赛等往往采用的是“可用而不可得”的模式,即数据实际并不真实分发给参赛者,而是提供一个“黑箱”云环境,要求参赛者提交相应代码在云端进行计算产出结果。而对于SODA大赛而言,既然希望推进的是数据的开放流通,那么势必应当在赛事中保证数据能够真实的分发到参赛选手的手中,让他们能够体验到数据真实开放情景下的数据使用方式,但从安全角度又必须保证这一过程可控受限。因此大赛设计了初赛阶段给予小样本方便选手了解数据结构和内容并构思创意,复赛阶段面向复赛选手分发真实的全量数据用于原型开发的流程。
在这一基本流程之上,SODA组委会参考了知识共享协议、英国开放政府授权协议等数据授权协议范本,拟定了SODA大赛的数据授权协议。该协议从权利上,确保了选手可以充分自由使用数据,并且不限制使用目的。而在传播权利上,考虑到比赛数据仅面向复赛选手提供,因此对数据的二次传播进行了限制。进一步,授权协议也要求选手必须在数据应用过程中,清楚说明数据来自大赛,仅是片段数据,因此数据得出的结论可能无法完全反映客观事实,从而保障数据提供方、赛事组织方、数据应用方、终端应用使用者四方的权益。具体操作中,所有复赛的选手一进入复赛环节,就会被通知准备协议,并且提交相应的身份信息用于验证本人身份和签字身份是否相符,一旦通过了身份核验,SODA组委会就会提供赛事数据的访问方式和解密密码,从而参赛者可以开始使用这些数据开展应用的开发。
搭建起了数据众筹的基本模式之后,下一步自然就是运用这套方法来获取到真实的数据,进而启动比赛。2015年,经上海市经济和信息化委员会支持,大赛正式启动,并确定赛事主题为智慧交通。之所以选择交通,是因为第一,这个领域的信息化基础较好,大多数数据都是采用自动化的方式采集的,数据质量相对有保障;第二是交通领域鲜少触及个人隐私,作为第一届大赛,相对容易推进数据的众筹;第三,通过盘点各国大赛,不难发现,交通往往都是最容易产出应用和创新企业的领域, 可以为大赛“打响第一炮”奠定基础。
表格 1 部分2015年赛事数据
数据集名称 | 数据提供单位 | 数据字段 | 时间范围 |
一卡通乘客刷卡数据 | 上海公共交通卡股份有限公司 | 卡号、交易日期、交易时间、线路/地铁站点名称、行业名称(公交、地铁、出租、轮渡、P+R停车场)、交易金额、交易性质(非优惠、优惠、无) | 20150401-20150430 |
浦东公交车实时数据 | 上海浦东新区公共交通有限公司 | 设备号码,线路编码,站点编码,协议编号,进出站状态,方向,车载上报时间、编码对应表 | 20150101-20150430 |
强生出租汽车行车数据 | 上海强生智能导航技术有限公司 | 车辆ID、GPS时间、经纬度、速度、卫星颗数、营运状态高架状态、制动状态 | 20150401-20150430 |
而智慧交通领域,数据众筹自然绕不过轨道交通、公交车、出租车这三者。在上海交通委的大力支持下,上海公共交通卡公司、上海强生出租车、浦东公交车等提供公共服务的企业纷纷打开了自己的数据宝库,面向大赛提供了包括一个月的交通卡刷卡记录、一个月的强生出租车GPS数据、四个月的公交车历史离到站信息等高质量数据。而这批数据资源,在全国范围内来说都属于是第一次面向公众开辟了获取口径,因而大赛一时间在城市规划、新闻媒体、数据科学等社群中激起了强烈的反响,在短短一个月的报名时间内,大赛就吸引了来自海内外近3000人次的注册,共组建了823支参赛队伍,收到了505个智慧交通领域的创意提案。
保卫橙子,是这505个方案中最终进入15强,摘得“最佳商业模式奖”的队伍。和诸多参赛团队不同的是,保卫橙子是一个已经建立起企业且完成天使轮融资的创业团队。他们团队的产品OK车险是一款基于驾驶员的驾驶行为,来个性化定制保险价格的互联网车险产品。保卫橙子开发了手机App用于采集用户在驾驶过程中的行为和数据,并通过强生出租车GPS数据产出了全市道路的驾驶速率基准数据,两相对比,自然就能知晓用户平日里驾车是否存在高风险,从而动态调整保单价格。而事实证明评委的眼光不差,赛事之后保卫橙子便成功获得IDG和京东领投的千万美金投资,飞速的发展,并且被纳入了首批对接“诚信上海”平台的名单之内。
而除了此类具备高度商业价值的项目之外,赛事中也发现了一批致力于帮助公共部门改善交通、提供更好交通服务的项目。来自上海同济城市规划设计研究院的“A+P&T+U”,针对早晚高峰时间,地铁过于拥堵,乘客体验度差的问题,创新性地提出了“微网搭桥”的概念,通过分析公共交通卡数据、出租车数据等,识别出主要的交通阻滞点,从而链接地面交通,将乘客送达非阻滞点或直达目的地。又如“GoBiking”和“近日点”两支团队,针对市政交通为最后一共里补充提供的公共自行车服务,基于多源数据的融合分析,给出了具体、可操作的站点选址建议与车辆投放策略。也难怪上海交通委的一位领导在赛后表示,“这次比赛证明,上海交通问题再靠传统管理模式很难找到出路,通过政府和公共数据开放,靠民间智慧、科技创新或许是更有效的方式”。
*
15年赛事的成功是远超预期的,不仅仅组委会在策划伊始未曾料到赛事会有如此受欢迎,大多数参与到赛事数据提供中的政府机构和企业也从未预料到参赛者能够真正理解数据并将它们转化成极具创意的数据产品。在赛事筹备时,一些数据提供单位曾经一度坚持认为即使数据释放出去,也不会有人能真正弄清楚如何解读和使用这些数据,而赛事最终的丰富产出则恰恰扭转了这类人群的思维。正如一位数据提供单位负责人所说的,“这次仅仅是释放了10个数据集,就可以产生500多个应用方案,而这些数据放在机构内部根本产生不了这么大的效应”。而要论15年赛事最大的受益者,则当属上海市交通委,大赛所形成的诸多方案触及了城市交通管理中的难题,为交通委带去了商业模式、政策指引、线路规划等不同角度的解决方案,上海市交通委的领导也感叹自己是“大开眼界”、“深受启发”,希望未来能够开放更多更好的数据,并希望与这些创新团队在赛后保持后续交流和合作,使项目能尽早落地。
而随着SODA在2015年取得的巨大成功,其也激发了全国各城市对于数据竞赛的热情,试图复刻SODA的成功。但事实上,虽然众多赛事效仿SODA试图抛出数据开放、开放创新等一系列概念,但效果上能够和SODA参赛规模和项目成果所相提并论的至今还未见到一例。那么在一个赛事背后,究竟是什么使得SODA和其他赛事不一样?其重点就落在SODA如何发展并落实“数据众筹、应用众创、问题众治”这一核心模式之上,而这一模式的思考就留待在下篇中具体为读者剖析。