全球移民热线 400-123-4567 面对数量庞大的数据,多数人的第一反应便是“这数字怎会有假”,然而实际情况是,数据从来都不会自行开口道出话语,它所展现出的样子,在很大程度上依赖于你最初是以怎样的方式去“询问”它的,从开始采集的那一刻起,主观的价值评判就已然被写入到它里面了。
不同的数据,不像自然界中原本模样固定的石头那样,不会随意开掘而出后就这样一成不变。它反而犹如一件经过专门定制的工具,从开始设计的最初之时起,就已然带有了制造者赋予的那份特殊意图以及不可避免的局限。对于采集方法所做的设定,像问卷之中所使用的措辞,还有传感器放置的具体那种位置情况,会直接对哪些信息能够被成功捕捉,哪些信息将会被有所遗漏这一结果产生决定性作用。
用推特数据分析社会情绪,为例来说,这个平台的数据看起来庞大,然而其用户群大部分是年轻、高收入的群体,用他们发出来的声音去代表整个社会的舆论,这就如同用少数人的声音把沉默的大多数给盖过去,从一开始结论的偏差就注定了。
即便数据源自看似具备权威性的机构,像是警察局的犯罪记录数据库这般,同样需要保持警觉之情。为了实现降低犯罪率的绩效目标,某些轻微案件或许会被“内部处理”进而不录入系统。你所获取的犯罪率下降数据,有可能反映的是执法行为产生的变化,并非治安状况的真正改善。
曾提醒记者的哥伦比亚大学新闻学教授乔纳森·扎瑟指出,当拿到数据后,要如同侦探那般追问,这些数字源自何处,怎样确保它的完整性,在生成这些数据的进程里,哪些主观抉择对结果产生了影响,唯有穿透数字自身,知晓其产生环节,方可接近真实。
自身不会言语的数据,经由算法挖掘而得的意义,需记者赋予它逻辑,大数据通常揭示的仅是两件事之间的相关性,像巧克力销量与谋杀率同时升高这种情况,然而这并不表明吃巧克力就会致使杀人,毫无关联的数据同样能够展现出好看的统计相关。
常在数据契合记者预判时,出现这种误读风险这般情况。要是先有结论而后去找数据予以支撑,那恰好相关联的数字便有可能被错误地当作因果证据。从数据世界迈入现实解说,每一步的推论都需要严谨的逻辑以及额外的调查去进行验证。
传媒当下倾向运用大数据来开展预测型报道,意图向读者传达未来将会出现什么情况。然而,我们所生活的这个世界极度复杂,充斥着难以预测的突发状况,即所谓的“黑天鹅事件”。无论多么精密的模型,都没办法涵盖所有变量。
依据历史数据所做的预测,常常在突发的社会变革另外还有自然灾害面前失去效力。记者于运用数据工具之际,应当对模型怀有几分适量的怀疑,对于现实的复杂性增添几分敬畏之情。预测并非宿命论,而是一种基于概率的推测,这点务必要向读者阐明。
当媒体跟掌握用户数据的商业组织构建起合作关系之际,新的伦理挑战紧随着就出现了。为去制作某个专独报道,媒体有没有权力调用涉及用户隐私的特定数据呢?比方说借助定位数据跟踪特定人群的行动路线,又或者凭借消费记录剖析个人健康状况。
承载新形式的这些问题,正向传统的新闻职业道德猛地发起冲击。其下依循这样的利益交换,那保护用户隐私的底线,可还能够坚定地予以守护呢?当针对某个公共议题回答,需要对私人数据展开挖掘之际,这般的权衡,切实地考验着媒体机构自身的价值观以及自律的能力呀。
当下,我国的大数据新闻正处于刚刚起始的阶段,比如说央视和百度合作开展的“据说春运”,这是值得珍视的一种尝试,然而却并没有构建成常态化的态势。三大门户网站的固定栏目仍然大多是以静态图表作为主要呈现形式,只是开展一些较为简易的数据对比,和国外同行相比较,在深度以及形式方面存在着一定的差距。
要实现突破当前状况,首要的是拓宽选题的思维路径,思索那些以往未曾敢去设想、不能够进行操作报道的内容,其次,在呈现形式方面要摒弃静态的图表形式,去接纳交互式的动态技术,最为关键重要的是构建一支跨学科的团队,促使新闻专业的人员与数据分析师、产品研发的人员能够深度地融合在一起,仿如《芝加哥论坛报》的“黑客团队”那般齐心协力地开展工作。
当下次你瞅见一组令人惊叹或者精准的数据之际,不妨暂且停顿下来思索一番,这个数字背后隐匿着谁的视角,又遗漏了谁的声音?欢迎于评论区去分享你针对数据“客观性”的看法,点赞以便让更多人学会理性看待数据。