在Jupyter项目庆祝20周年之际,Fernando Pérez反思了它的起源、开放科学的影响以及编码多样性的价值

费尔南多·佩雷斯

费尔南多·佩雷斯(Fernando Pérez)是加州大学伯克利分校(UC Berkeley)统计学副教授,劳伦斯·爱游戏电竞伯克利国家实验室(Lawrence Berkeley National Laboratory)数据科学与技术系的院系科学家,也是伯克利数据科学研究所(Berkeley Institute for Data Science)的院系附属机构。(照片)/乔纳森泰勒)

爱游戏吧下载电脑版官方下载

2021年9月24日

一组加州大学伯克利分爱游戏电竞校的学生和毕业生在本周的加利福尼亚大学全系统竞赛中赢得了10000美元的大奖,这是他们的数据驱动项目黑皮书大学。

2021年9月22日

天体物理学家、伯克利数据科学研究所(bid)主任索尔·珀尔马特(Saul Perlmutter)已被任命为白宫总统科学技术顾问委员会(PCAST)成员宣布今天

2021年9月17日

爱游戏电竞UC Berkeley的Meredith Lee已被任命为新加利福尼亚州全州的理事会从摇篮到事业该数据系统将连接教育和社会服务等各个领域的信息,以更好地装备决策者、教育工作者和公众,解决社会和经济差异,并改善全州学生取得成功的机会。

2021年8月19日

Jon Bashor对本文有贡献。

20年前,加州大学伯克利分校统计学副爱游戏电竞教授费尔南多·佩雷斯启动了以透明和协作的方式分析大量数据的基础工具之一。那个项目,IPython,演变成了Jupyter项目.

Jupyter项目提供一系列工具,如Jupyter笔记本,帮助用户进行交互式计算——迭代执行编程代码的小片段,以探索、分析和可视化数据和计算思想。它还允许科学家们查看和建立世界各地其他研究人员的工作。

据英国《每日邮报》报道,近1000万台Jupyter笔记本已经在GitHub上被用户公开,该工具被认为是改变科学的10种计算机代码之一自然界

Jupyter和类似的工具支持了像第一个一样的开创性研究形象一个黑洞。朱彼特也有改变科学出版过程,使科学家可以轻松地分享他们结论背后的数据和代码,并提供复制方式的方法。

我们与佩雷斯进行了交谈,佩雷斯也是该研究所的共同创始研究员伯克利数据科学研究所还有一个在劳伦斯伯克利国家实验室关于他为什么开始这个项目,他面临着什么挑战,以及从他和木星计划中期待什么。

问:2001年创建IPython时,你的目标是什么?

答:是双重的。一个是技术和认识论目标的集合。我想做的工作流程,是典型的科学。我们不倾向于用预先定义好的目标来编程。我们在交互式发现过程中使用编程语言。

我是一名物理学研究生,我开始使用Python为我的博士学位分析数据。论文我意识到以这种交互式、探索性的方式使用Python是可能的,但它是有限的。我想也许我可以建立一个小工具,让运行一些代码的过程,也许绘图,可视化一些数据,继续根据我在图中看到的内容编写代码,打开一个数据文件——这个探索过程——变得更容易。

我之所以想用Python来做这件事,是因为我在工作中使用了一个专有工具,但我想用开放工具来做我的科学工作。我认为科学的使命就是打开大自然的黑匣子。使用我们不允许打开和理解的工具(包括专有软件)这样做有点荒谬。

还有一点道德上的考虑,那就是我希望能够与我在哥伦比亚的导师分享我的工作。专有工具不可能做到这一点,因为它们非常昂贵。我想拥有能够让我与他人分享我所做的一切的工具。

老实说,还有一个个人原因,那就是我在努力攻读博士学位。我被我的第一个博士解雇了。导师,系里一个很毒的人,我在努力完成我的论文。最后,在系里另一位教授的支持下,安娜·哈森弗拉茨,谁监督我直到毕业。除了她的科学指导外,她还有耐心地通过建造IPython来让我“努力拖延”,这是我可以在某种程度上证明作为完成论文的工具。我恢复了一些需要的信心,我被建造了一些东西,结果结果非常重要。

这里的关键信息是找到一个重视你工作的社区的影响:对我来说,IPython是一个做别人关心的事情的机会。这不是粒子物理学。这不是粒子理论。但其他科学家立即对此作出反应。

当我第一次在科学Python列表中发布IPython的第一个发行版时,其他人立即跳了起来。来自其他领域的其他科学家说,“这是很有价值的,我们对你所做的事情很感兴趣。”这种反馈循环对于让我回到正轨以及其他帮助我的导师的支持至关重要。

需要强调的是,虽然IPython最初可能只是一个小型的个人项目,但今天的Jupyter是一个协作社区的创建,从我的同事开始布莱恩·格兰杰包括许多才华横溢的人他们为共同的使命贡献了自己的工作。

问:你能谈谈为什么能够与那些没有与你合作的人分享你的工作很重要吗?

答:我们今天在接受开放源代码软件的过程中看到的是,我们永远不知道科学世界的哪些其他部分可能与我们有共同的需求。通过构建可公开共享且可互操作的工具,我们加快了发现周期。从纯粹务实的立场出发,我们希望更快地获得更好的科学,我们希望有更好的发现,并产生影响。

我认为这里还有一个非常重要的访问元素。在伯克利,如果我们必须在每学期开始时为1500名学生管理在笔记本电脑上安装专有软件的成本和物流,我们就不可能以我们教授数据科学课程的规模进行教学。这真是不可思议。但有了开放式工具,我们可以以一种适合我们需要的方式部署、组织、访问和构建它们——从成本和技术上讲。

问:使用开放科学工具(包括Jupyter笔记本)来构建一些原本不可能存在的东西,从而加速发现的例子是什么?

答:我最感兴趣的一个项目是一个由一个叫做Pangeo,最初专注于与地球科学和气候科学相关的大数据。它是由一位物理海洋学家发起的,瑞安·阿伯纳西,一组合作者. 这是一个非常重要的领域,因为气候变化是我们这一代人的决定性问题,对全世界都有影响,但我们在加利福尼亚州清楚地看到,近年来,野火和干旱造成了如此多的苦难。

使用Pangeo Stack,您可以进入画廊,单击一个链接并使用任何浏览器,而无需安装任何内容 - 使用五十年前的方式与其不可想象的方式播放,可以通知scientists, policymakers and the public’s actions and decisions around climate change. Making it possible for them to access this data is one of the things that motivates me the most. It is the community that I'm putting all of my technical research effort into these days.

我并不是说气候危机是一个纯技术或纯科学的问题,也不是说我们的工具将解决这个问题,但至少我们可以尝试提供帮助。

问:你已经谈到了学术界中其他人的面临压力,以更早地关注你的职业生涯中的研究,而不是iPython的发展。您是如何决定留在Ipython的课程?

答:这是一个很难回答的问题。有些只是固执和缺乏职业感,因为这确实需要很长时间,我不想把它浪漫化。在这一过程中,有些时期相当困难。我的治疗师肯定帮助了很多,如果没有我妻子的支持,我是不会成功的。我妻子当时也是Boulder科罗拉多大学的研究生,因此她有自己的工作要处理。我认为承认这些资源和支持是很重要的。

不过,非常重要的是,在我还是科罗拉多州博士后学者时,加州大学伯克利分校的一些人很早就支持我,用爱游戏电竞Python工具进行更传统的应用数学研究。我在纯粹的应用数学领域投入的资金还不够,无法从中获得一份职业。因为Python社区而与我联系的加州大学伯克利分校的人为我提供了一个团队,并最终为我提供了一份工作。

首先,我们围绕着为美国国立卫生研究院(National Institutes of Health)制定拨款建议,通过贾罗德·米尔曼,他是Python在科学领域的早期倡导者之一,继续领导该领域的项目。这是2004-2005年,当时没有人相信这一点。与加州大学伯克利分校的团队建立联系是至关重要的,因为它为我提供了一条合法的科学道路,在那里有空间进行这项工作。这很不寻常,但是爱游戏电竞马克·德斯波西托他是该公司的首席研究员伯克利脑成像中心,愿意相信这一点,并为此提供资金。第一批赠款没有得到资助。后来他们得到了资助,2007年,马克给了我一个在加州大学伯克利分校的职位。起初我是大脑成像中心的一名研究科学家。从那以后,我们就可以把这条奇怪的路缝在一起了。爱游戏电竞

我认为,感谢伯克利大学个人的支持,以及该机构愿意承担风险并允许像我这样的人存在这一事实非常重要。我想赞扬爱游戏电竞他们,因为当加州大学伯克利分校给我一份工作时,我确实得到了这份工作,这份工作基本上是进入工业领域,为金融业编写软件。我相信,如果我接受了这一点,我的职业道路会大不相同。

问:人们可能会感到惊讶,志愿者和其他开放科学工具的工作有多少钱是由志愿者完成的。为什么为这项工作付钱很重要?

答:对我来说,我认为这是一个迭代发现和理解这些项目的过程——即使它们看起来像软件项目——实际上也是关于那些需要长期思考的人的。我们需要用战略眼光来组织这项工作。我们需要做日常维护。我们需要融入社区。我们需要做外展。有些任务在周五晚上并不总是最有趣的,所以如果你依赖志愿者的话,这些任务是不会完成的。其他的可能很有趣,但它们可能很长、很困难,需要你付出专门的努力,除非你真的能花一整天的时间来解决这个问题,否则你将无法解决它。

此外,如果你只依赖志愿者或那些工作上只做自己喜欢的事的人,你就会排除那些没有这些功能可见性的人群。在没有你想要达到的社会的完整部分的情况下构建工具,你不可能在那个社会中产生你想要的影响。这不仅仅是一个技术任务。这是一项道德使命,即建造对世界有积极影响的东西。如果我们只靠少数人来建造东西,这种影响是不会实现的,因为当你靠少数人来建造时,你就是为少数人而建造。如果我们想要创造真正适合所有人的东西,我们需要与所有人一起创造。

我们还通过建立对由少数人维护的这些项目的科学脚手架来创造大量的战略风险 - 在某些情况下,从事少数少数案例 - 谁不受支持,正在采取专业风险或支付切割,或放弃更稳定的机会。在某些情况下,只需要一个或两个或三个人戒烟,其中一些项目将在其体重下崩溃。我们说,“哦,看起来的引力波,一个黑洞。”然后你开始看,所有这次伟大的工作都在这个倒金字塔上休息,底部有两个人。这很疯狂。

对于专有软件,我有道德和认识论上的反对意见,但它们是合法的商业模式。你为软件付费。通过这些销售,这些公司雇佣工程师。他们雇佣销售人员。他们雇佣技术支持人员。他们雇佣文档人员。所有这些工作也需要在开放科学中完成,我们需要为它们付费。如果我们把它们作为开放的基础设施来支付,社会就能从中受益,那就更好了。

问:我知道我已经走到了我们时代的尽头,但如果我没有问:朱皮特下一步会怎样?

答:在木星前面——我不完全清楚!关于木星的好消息是爱游戏吧下载电脑版官方下载,以一种有意义的方式,我在很大程度上与这个项目无关。我是指好的方面。有这么多有才能的人为这个项目付出了努力。我经常在Twitter或我们的Discourse上发现关于木星很酷的事情社区论坛,我就像,“哇,出来了?这是令人难以置信的。”这很棒,但这也是一个挑战,因为该项目变得如此之大。

这种增长对社区管理提出了挑战。在过去的一段时间里,我们一直在进行一个非常复杂的治理重组过程,以更好地服务于这个不断壮大的群体,其中包括从全球各地的志愿者个人到最大科技组织的团队等利益相关者。这是一项令人着迷的工作,我希望它能为这个项目带来至少20年的影响。

在技​​术前沿,我非常兴奋,我们现在在jupyterhub,jupyterlab和jupyterbook之间如何在jupythub,jupyterbook之间为我们提供合作,开放科学的基础。它在研究的整个生命周期中利用了云,从个人探索到大规模分析发表和教学。这一直是我们多年的愿景,但是该工具现在已经成熟,可以使用它们来构建Pangeo等平台,因此人们可以公开地在需要各种各样的专业知识的大型和复杂问题上进行协作。

问:你呢?

A:对我来说,Pangeo努力一直是在计算和科学兴趣方面的重要灵感。我们在伯克利加入了来自Pangeo和英国哥伦比亚大学(UBC)的合作者的队伍,以创建一个名为的新非营利组织2i2c,即国际交互计算协作组织。这个组织的目的基本上是要扩大我们的大学范围——超越加州大学伯克利分校,超越哥伦比亚大学,超越UBC——我们看到我们可以建立的基础设施。爱游戏电竞

在加州爱游戏电竞大学伯克利分校,我们在来自凯瑟琳·卡森,克里斯·霍尔德格拉夫,Yuvi熊猫,林赛·希吉等等。在哥伦比亚大学,Ryan Abernathy正在建造Pangeo。在UBC,吉姆·科利安德其他人正在建设一个名为syzygy为加拿大研究人员提供Jupyter基础设施和一个名为木卫四适用于K-12教育。我们所有人都在我们所说的类似环境中找到自己,“我们可以建立这个,但大学不是缩放这一点的态度。”

因此,我们试图创建一个组织,推动社会福利基础设施的部署——研究和教育——以及这些项目和工具的可持续性。我们的愿景是为整个社会的开放科学建立这些工具和平台。我的意思不是说像Facebook或Twitter这样的平台,每个人都必须访问它。我的意思是,其他人可以在他们的环境中组装和重新使用平台来解决他们自己的问题,独立于任何给定的供应商,并具有他们的社区所需要的隐私和自主性。

对我来说,现在有三个相关的方向,将上述三个方向结合在一起。首先,Jupyter多样化的社区,Pangeo和2 i2c,我希望我们能建立在未来几年“开放科学云操作系统”:与厂商无关的工具,这将是易于使用和高技术能力,推进科学和教育没有障碍。

其次,我个人希望将自己的努力集中在利用这些工具应对气候危机上。我个人喜欢高山和所有寒冷的东西,我们正在失去地球上的冰,带来灾难性的后果。作为一名物理学家,我发现太空是物理原理和统计挑战的迷人组合,我正在与冰冻圈科学家和统计学家合作解决这些问题。为了开发真正有用的工具,有一个具体的用例是很重要的;对我来说,气候和环境现在是驱动我开发木星想法的动力。

第三,最后,我们讨论的所有这些工作都是由软件驱动的,但是软件深深地嵌入了科学研究的细节中。我和其他科学家也是这样开始的。我们有时会听到这被描述为“软件吞噬了科学世界”。如果我们接受这个前提,那么我认为我们的议程应该是:a)更认真地将软件作为科学的核心要素,并因此教我们的学生如何以补充我们计算机科学同事工作的方式构建软件;b) 开展研究工作,真正探索软件和科学交叉点的独特之处;c)奖励那些在各个阶段从事这类工作的人——从学生到工程师、研究人员和教员——并因此以一种超越“发表论文并扔掉代码”的全面愿景资助他们的工作

这些是我希望在未来几年在伯克利和我们的同事在校园之外建立的空间:更好的计算工具,更好的科学,对所有人开放,并对我们最关键的问题产生现实世界的影响,从气候危机开始。

问:非常感谢你和我交谈。你有什么想强调或补充的吗?

答:关于最后一点,我必须说——用这个愿景设计和开发平台——我知道我们一直在CDSS积极致力于这一点,一直到现在珍妮弗·帖子。她一直非常支持这一愿景。我很高兴我们能够在科学中发挥软件的作用,以及这些开放平台在科学中的作用。

我希望过去几年的这些成功只是开始,在五年或十年后,我们能够说我们确实建造了更好的东西,更大,更可持续,不需要像我这样的人在过去10年或15年中不得不做的那种疯狂的扭曲。