数据科学发现项目学生帮助开放古代美索不达米亚的会计数据

Niek Veldhuis

亚当•安德森

亚当•安德森

约公元前2100-2000年乌尔三世时期的楔形石板,哈佛大学闪米特博物馆。

这块42 x 27毫米的乌尔III碑属于英国收藏家大卫·约翰逊,上面列出了旅行所需的啤酒、面粉和油等商品,以及前往苏萨的使者阿巴穆的名字。(https://ant.david-johnson.co.uk/catalogue/70

这是一块巴比伦石板,长57 x 41毫米,正面和背面有21行文字2019年7月佳士得拍卖会上18750英镑

2021年8月9日

DS的本科生增加了一系列的专业知识来解码泥板表格

在许多情况下,数据科学指向了一个更光明的未来,更好的机器学习工具和算法被用于解决从气候变化到更好的医疗保健获取,从改善交通安全到在Prime Day找到最优惠的交易等问题。

但加州大学伯克利分爱游戏电竞校的一些研究人员正在应用这些工具来了解更多关于过去的信息,比如破译古苏美尔泥板上记录的商业和个人交易。这类平板电脑引起了国际上的关注爱游戏吧下载电脑版官方下载美国向伊拉克归还17,000块石碑和其他古代遗迹七月底。

Adam Anderson于2017年加入伯克利大学,作为梅隆大学数字人文博士后研究员,一直是数字人文和数据科学讲师。他的苏美尔网络研究项目,与亚述学教授Niek Veldhuis合作,专注于开发工具和工作流程,用于分析15000个古代苏美尔泥板的内容,并将生成的数据模型和代码添加到其中开放数据存储库.该项目的首要目标是使他们的工作完全可复制,这样其他研究人员就可以为翻译做出贡献,他们创造了苏美尔网络木星书来演示这个过程。

为了寻求帮助,Anderson和Veldhuis求助于Discovery项目,这是数据科学教育的一个关键部分计算、数据科学和社会部在伯克利。数据科学发现计划将感兴趣的学生与在校园、非营利组织和政府机构以及工业界工作的研究人员相匹配。在过去的四年中,15名数据科学专业的学生为该项目做出了贡献,一些学生的贡献期长达三年,另一些学生的贡献期为一到两个学期。为了找到这些学生,安德森列出了学生们将使用的工具类型——自然语言处理、Python、机器学习——发现项目的工作人员进行了匹配。

“我们正在寻找许多不同类型的学生,以从事项目的不同方面。你会惊讶地发现,有多少学生渴望从事STEM领域之外的工作。”安德森说。“问题是复杂的、多维的,一些学生认为这份工作是更好的就业准备,因为他们协调和组合过程,以实现目标。”

一篇描述这个项目的论文将很快发表艺术与人文学科的跨学科数字参与同行评议的,在线的,开放存取的期刊。这篇论文是由Anderson、Veldhuis和Anya Kulikov共同撰写的,Anya Kulikov是Discovery项目的学生之一

库利科夫于2020年5月从伯克利毕业,获得数据科学和语言学学位。他在这个项目上工作了两年,直到2020年12月才完成论文。她被人文和科技相结合的工作所吸引,直接联系了安德森,加入了团队。她的任务是找出课文中与商品有关的单词,并开发一种计算它们的工具。在文本中,商品后面总是跟着一个数字,而其他术语则没有,这使得这项工作变得更容易。

库利科夫现在是高盛(Goldman Sachs)的一名软件工程师。他说:“通过根据句子中的位置找出规律,再加上细心和勤奋,商品就很容易找到了。”“用一种与古代不同的语言工作非常酷。我很惊讶地了解到,他们的先进会计系统有不同的单位用于液体和固体,就像我们今天的系统一样。”

“对我来说,”Veldhuis说,“探索计划非常吸引人的一个方面就是向学生学习。作为一名教授,我经常被期望知道一切,并教别人。

Veldhuis说:“但在这里,我得到的学生对编码有着透彻的理解,对可能性和陷阱有着比我更广阔的视野。”。“我教他们一些关于苏美尔文化的知识,他们教我关于数据科学的知识。事实证明,这是非常有成效的。”

加州大学伯克利分校(Berkeley)数据科学本科生合作课程项目主任孙明扬(Anthony Suen)表示,“发现”项目最初是一项草根活动,旨在为学生提供体验式培训,为他们就业或进入研究生院做准备。

孙说:“参与探索项目让学生有了更全面的视角。”“他们也会遇到问题,第一次尝试没有成功,然后就回去工作了。”

从平板电脑传输数据

该项目的核心是乌尔第三王朝15000张陶土表上的数据。乌尔第三王朝统治着横跨底格里斯河和幼发拉底河的地区,现在是伊拉克的一部分。该地区包括新月沃土和一些城邦,包括巴比伦。也被称为乌尔三世,统治于公元前21世纪。来自平板电脑的数据在三个数据库中在线整理:开放的楔形文字丰富注释语料库,新苏美尔文本数据库楔形数字图书馆倡议

这些牌匾形成了一个会计系统,用于记录交易的商品,如绵羊、山羊、公牛,甚至野生动物,以及相关产品,如羊毛、皮革、鞋,以及谷物、啤酒、金属、矿石、宝藏和对统治者的贡品。这些平板电脑还包括参与商业活动人员的姓名。这些平板电脑被该地区的六个城邦使用,构成了安德森所说的“古代世界的股票市场,列出了这些商品的来去”

苏美尔人网络项目旨在从数据中建立可复制的社会经济网络,然后精炼这些模型,以更准确地反映乌尔三世时期(公元前2011年至2000年)活动的行动者和实体。这15000份文本来自Drehem(在古代被称为Puzriš-Dagān)的遗址,在1910年该遗址被洗劫后开始出现在文物市场上。如今,它们在伊拉克、加拿大、欧洲、日本和美国的博物馆以及私人收藏中都有发现。

很多都是在海湾战争后被洗劫一空的,据信ISIS为了筹集资金卖掉了一些藏品,比如一件藏品以160万美元的价格卖给了一位私人收藏家,几年前在美国被截获。美国最大的私人收藏之一包括1.4万件美索不达米亚文物,根据最近美国和伊拉克之间的协议,这些文物将被归还给伊拉克。

安德森说:“这是我所能找到的最古老文明中最大的数据存储库。有时它们会被拍卖,我们会抓住图像——我们试图不择手段地获取数据。”他对古代语言的研究将他从哈佛大学带到慕尼黑,从哥本哈根带到耶路撒冷。“这些平板电脑中有很多线索——名字、日期、交易发生的地点。我们想弄清楚资金流向何处、哪个城邦掌权以及人与物之间的关系。”

安德森相信有足够的线索来识别涉案人员,尽管许多名字很常见,他补充说:“这些都是真实的人,在做真实的事情。”这个消除歧义的过程是项目的下一个阶段。但他承认,这只是冰山一角。据估计,乌尔三世的石碑目前约有12万块,但专家认为,更多的石碑还没有被发掘出来。

安德森开始他的语言学研究集中在闪米特语言,如希伯来语,但随后发现了早期语言的痕迹,这些语言是新语言的先驱。

他说:“苏美尔人发明了这种书写系统,有数十万份文件,其中许多没有翻译。”。“这对我来说真的很令人兴奋——这是圣经语言的曾祖父。但这个系统太复杂了,我们必须使用计算方法才能完全理解它。”

该项目汇集了来自世界各地的考古学家、楔形文字专家、计算文本分析和自然语言处理专家,涵盖了数据科学、社会科学和数字人文学科。它还汇集了语言学和考古学的学科,语言学研究语言的发展,考古学经常发现语言的证据,如石板。

可再生性建筑

为了确保研究结果的可复制性,开发了Jupyter笔记本来描述与代码和数据集相关的各种自然语言处理工具和方法,从而产生了一系列经验网络模型。这些笔记本清楚地展示了一步一步完成的工作,现在正被合并成一本Jupyter书籍。其想法是,其他研究人员可以使用相同的方法来扩展翻译平板电脑的数据库。

根据安德森的说法,最大的挑战是开发工具来阅读石板上的符号——现有的字符识别工具主要是用来阅读英语书写的,比如拉丁文字。

除了帮助开发这些工具,Discovery的学生还创建了教程,解释如何使用它们。学生们还获得了在校园活动中展示他们工作海报的经验。爱游戏娱乐城除了获得学术学分,Anderson和Veldhuis还确保学生作为研究论文和Github上的木星笔记本的合著者获得学分。

安德森说:“教师与学生的互动对探索项目的成功至关重要。”。“学生们都很喜欢这个项目,并且一直在努力。我可以说,因为他们中的一些人在周六和我会面。”

科尔曼·鲍顿(Colman Bouton)于2021年5月毕业,获得了应用数学和生物学学位。他说,他在Veldhuis上过一门课,正在寻找一个他可以从事的项目,但在一个他原本不会涉足的领域。

他的第一份工作是创建一个教程,在伯克利数据科学研究所(BIDS)主办的GraphXD在线会议上演示。GraphXD是一项跨领域的倡议,旨在促进跨学科协作,并为研究人员、科学家和理论家提供培训,使用图形和网络分析在各个领域进行应用。他学会了使用NetworkX,一个用于研究图形和网络的Python库。

鲍顿说:“一切都很顺利。”“我以前没有用过NetworkX,但当我弄清楚它后,看到个人之间的商品交易的可视化真的很简洁。”图中显示,在中心的更多的人之间有更多的交易,在更远的地方有更小的节点。

鲍顿说:“我们看到同样的人在一起,交流更加密切。”“他们的社会是复杂的,但从数据来看,我们看到大人物之间并没有互动,即使是与他们关系密切的大人物也没有。”

在更长期的研究中,鲍顿对数据中的单词进行理据化,去除单词的屈折和时态,以获得核心意思,然后将其与英语单词联系起来。他说,这使得对文本进行操作和查看发生了什么更容易。

“我们正在尝试定义他们的经济结构,看到经济随着时间的推移而变化很有趣,”Bouton说。“我们会回去看看结果是否有意义,随着时间的推移对商品进行分类。我们还试图找出贸易的大萧条是否是由于洪水造成的糟糕年份。”

溥敦说,他对所有这些交易都有记录,以及对大宗商品的跟踪如此彻底感到惊讶,就像今天对数字的关注是我们文化的一部分一样。鲍顿说:“苏美尔人的根似乎是文明基础的重要组成部分。”“也许这是拥有这么大的功能性城市所需要的。”

这样一个项目的一个吸引人的方面是,学生们正在为更大的持续努力做出贡献,而不是在一个学期的课程中做一些开始和结束的事情。安德森说,尽管流感疫情的停止让他的互动变得不那么风度翩翩,但除了手头的任务进展情况外,他仍然与学生进行对话。他谈到他们的职业道路,他们要求提供推荐信。

安德森说:“他们正在完成真正的工作,取得了一些可以指出的真正成就——这不仅仅是理论上的。”他们帮助构建东西,更新其他人的工作,并帮助保持整个项目的顺利进行。就像人文学科经常发生的情况一样,你永远不会真正完成一个项目——这是世界上最大的谜题之一,我可以用我的余生来解决它。”

在谈论到目前为止所学到的东西时,安德森反复地谈论人民,而不是王朝和集体城邦。

他说:“从年代的角度来看古代是很容易的,但我们看到它是非常个性化的。”青铜时代的楔形文字档案显示,“他们有信用账户、贷款、结婚和离婚,甚至贫穷的家庭把孩子卖为奴隶。”我们可以看到生活、条约、法律体系和商业的复杂性,这一时期一直在进行。”