返回首页 | 网站地图
我爱全讯网-hg0088-hg0088.com-新2=皇冠官方网站
构建人工智能数据集存在的问题和策略建议

构建人工智能数据集存在的问题和策略建议

来源:未知    作者admin    日期:2019-03-11 10:40    热度:
  现阶段,缺乏高质量的数据集已经成为制约人工智能领域发展的瓶颈之一,如何构建人工智能数据集已成为各国政府和产业界关注的焦点。
 
  美国提出支持构建高质量人工智能数据集,并将构建行业资源数据集定位为产业界不可能解决需政府层面推动的难题。2016年10月,美国先后发布《美国国家人工智能研究和发展战略计划》和《为未来人工智能做好准备》,确定构建人工智能数据集为联邦政府人工智能战略重大计划之一。英国认为人工智能行业数据集的匮乏已严重阻碍人工智能的发展,将提高数据获取性和行业数据访问的便利性列为未来提升英国人工智能能力的首要任务。
 
  我国将缺少有效的训练资源库列为影响人工智能发展的痛点问题之一,提出支持建设包括公共数据资源库、标准测试数据集、云服务平台等在内的人工智能基础数据平台。2017年12月,工信部发布《促进新一代人工智能产业发展三年行动计划》,提出支持建设面向语音识别、视觉识别、自然语言处理等基础领域,以及工业、医疗、金融、交通等行业领域的高质量人工智能训练资源库和标准测试数据集并推动共享。2018年11月工信部发布《新一代人工智能产业创新发展重点任务揭榜工作方案》,促进《行动计划》进一步落实。
 
  当前在人工智能数据集的获取和标注方面仍存在四个方面的问题。一是在元数据获取层面,企业出于自身利益考虑,难以实现真正的数据共享,而且某些特殊领域的数据获取和使用是否合规合法存在很大的争议。二是数据标注行业仍是被具体政策支撑忽视的死角,人工智能相关政策和社会关注点主要集中在算法、应用、芯片方面,针对数据标注和众包市场的政策支撑和社会关注较少。三是第三方众包平台市场仍处于发展初期的野蛮生长状态,缺乏相关行业管理规范和行业自律精神,有可能会发生一些损害客户利益的情况,如对众包数据进行二次转售等。四是目前大型企业对自有数据的保护意识越来越强,但是目前众包平台主要由人工智能科技企业建设,不存在与其他众多人工智能科技企业完全没有利害关系的第三方众包平台。
 
  针对构建人工智能数据集存在的问题,特提出策略建议。一是进一步加强顶层规划设计和体系化布局,完善配套措施,加快相关政策落地,通过政策手段促进人工智能数据在企业间的共享和合理化使用。同时加强数据标注和众包市场的政策支撑,提高社会关注度。二是推动人工智能数据领域相关管理规范的制定和落实,加强行业自律精神建设,建立投诉机制,保障企业数据安全。三是建议在国家层面统筹人工智能行业资源数据集建设,探索以政府数据开放为牵引、龙头数据为基础、行业数据合作驱动,由无利益关系的第三方维护数据集并建设数据众包平台。