将数字转化为文字:关于数据科学的写作艺术

莎拉Stoudt

萨拉人斯托德,史密斯学院统计与数据科学项目讲师

德布诺兰

黛博拉·诺兰,本科研究副院长,统计学教授

2020年12月10日

爱游戏电竞加州大学伯克利分校统计学教授黛博拉·诺兰欣然承认,写作对她来说很难。根据她30多年的教学经验,她的大多数学生都面临着同样的挑战。

几年前,她决定为此做点什么。她成功地申请了“写作艺术研讨会奖学金”来教授统计学写作课程。其中一个要求是与一名研究生共同设计课程。校园里有几个人推荐了萨拉·斯杜德(Sara Stoudt),她是伯克利大学统计学的博士生y、 一种伙伴关系诞生了。

与数据通信

除了开发课程,诺兰和斯托特还合著了《与数据交流:数据科学的写作艺术》,这本书将于2021年3月由牛津大学出版社出版“阅读写。”其中介绍了“学习统计讲故事艺术的框架”,将出现在十二月二日020重要问题,英国皇家统计学会杂志。

诺兰是计算、数据科学和社会部本科生研究副院长,他说:“我没想到会教一门关于写作或写书的课,但似乎有一个空白。”。“我仍然觉得写起来很难,但比过去痛苦少了。”

尽管如此,诺兰还是与人合著了五本关于统计和数据的书,编辑了另外三本,并在杂志上发表了63篇文章。

该项目将在2021年伯克利春季学期完成编写数据故事将是Data 88系列课程中的数据科学连接课程。亚当·安德森将担任讲师。

传播关于数据的信息

斯托德现在是史密斯学院统计与数据科学课程的讲师,在那里她获得了数学学士学位,重点是统计学。她说,“现在一切都是数据,能够解释为什么数据分析很重要很重要。”

2019年,作为《洛杉矶时报》数据台的暑期实习生,她第一手了解了这一过程。她开发了一种工具,将人口普查数据汇总到记者感兴趣的特定地区,然后在报纸文章中使用这些信息。爱游戏吧下载电脑版官方下载

“作为回报,他们训练我像记者一样思考,”斯托德说。“这段经历让我思考了很多我可以用统计数据做些什么。”

她说:“写统计学的一个挑战是,这门学科有非常具体的词汇和非常具体的含义,比如信心、重要性和p值。”。

“写作需要忠实于研究,但不要让人们对我们的工作产生反感,”斯托德说,他也是一名科学家伯克利数据科学研究所研究员.“了解什么语言有用需要练习;在野外写统计数据的例子并不多。我们希望学生们意识到,他们可以同时成为作家和统计学家。”

斯托德说,这也需要持续的关注,她补充说,她的学生有时会叫她“当我解释得马虎的时候。”

但事实上,她甚至教统计学和数据科学的学生写作,这仍然让她感到惊讶。

斯托德承认:“我对自己的作品总是很在意——这是我最害怕的事情。”。“我有时仍然会想‘我是如何教写作的?’”

确定什么是重要的

诺兰说,她从20世纪90年代初就开始鼓励学生写作。在课程中,学生将承担一个特定的问题,并在分析和解释中扮演特定的角色。这有助于他们识别什么是重要的,以及为什么交流他们的发现是重要的。评论可以是一份消费者指南,一份给他们的主管的备忘录,或者其他一些有针对性的文章。

“重点是如何展示他们的分析,”诺兰说,“我想要更多的技术写作支持,但在校园里找不到。”。当我看到有机会教授写作艺术研讨会时,我欣然接受了。”

诺兰和斯托德都说,教学生令人信服地写作的关键部分是说服他们在写作中占据一席之地。“在技术论文中进行论证的想法对于数据科学家来说并不常见,”诺兰说。“但是,你需要以一种特殊的角度来阐述你的发现,以使读者相信这项工作的重要性。同时,你也不能过分强调。”

斯杜德对此表示同意,并补充说:“我们需要了解我们能说什么,不能说什么。你还需要清楚地表达为什么你喜欢或不喜欢它。”

读书写字,还是剥洋葱皮

在他们的文章Significance中,Nolan和Stoudt提供了一个“读到写”的模板,该模板基于对一篇文章的反复阅读,每次寻找不同的东西,然后从头到尾仔细阅读。第一步是映射文章的组织,并标记特定的点,如描述、图表和结论。第二步是确定统计元素,包括分析。最后一步是检查作者的论点,包括看他或她的用词,以及他们是如何支持或削弱论点的。

“阅读一篇文章就像剥洋葱皮,”诺兰说。“你必须反复阅读几遍才能完全理解它。阅读和写作一样,是一个反复的过程。”

当两人开始写他们的书时,迭代是工作的关键部分。他们花了几个月的时间来开发写作研讨会,这为他们提供了基础,他们花了大约一年的时间来写初稿。他们邀请了来自统计学、英语、修辞学和土木工程等学科的教授来阅读这本书。

诺兰说:“召开这样一个审查小组的想法是尽可能少说话,让他们负责。”。“根据他们的建议,我们做了实质性的重写,删除了一些部分,重新安排了其他部分,增加了新的章节,并解释了我们在各个部分的意思。

诺兰说:“当我们无法想象在这本书上做更多的工作时,我们知道这本书已经完成了。”。

展望数据88:写数据故事

亚当·安德森

在为即将到来的2021年春季课程准备教学大纲时,安德森使用了该书的预发本,称之为“精彩、有用的指南”。他于2017年加入加州大学伯克利分校,担任伯克利分校梅隆数字人文学科博士后研究员,是数字人文学科和数据科学的讲师。爱游戏电竞

安德森是一名经过培训的语言学家,他将采用混合方法授课。他说,数据科学家通常对尽可能短的描述感兴趣,尤其是在编码方面,越少越好。在人文学科,当涉及到更多细节时,答案是“是的,请”

安德森说:“肯定有两种不同的想法在汇合。”他补充说,他通常的数据来源是古代文献,而不是数字。“我探索了许多不同的写作方式,它们都需要考虑你的读者。”

安德森说,无论是看篮球数据、说唱歌词还是Twitter消息,词汇都是可以量化的,你很难理解这个概念。在即将到来的课程中,学生们将分析数字,然后将结果翻译成常规语言。

“歌德写道,科学和艺术一开始是一样的,然后逐渐分离,但总有一天会走到一起,”安德森说。“我想我们到了,但我们不知道我们到了。”

安德森说:“能够把这门课教给本科生,向他们展示针对不同受众的不同写作方法,这真的很棒。”“学会写作能让你发表你的研究,这有助于别人理解你的想法。”


德语是这样写的:“Man vergaß, das Wissenschaft sich aus Poesie entwickelt habe, Man bedachte nicht, das, nach einem Umschwung von Zeiten, beide sich wieder freundlich, zu beiderseitigem Vorteil, auf höherer Stelle, gar wohl wider begegnen könnten”(歌德1817493)