Herman Hollerith 在 1889 年获得的专利,读起来不像一则关于计算机未来的预言。它更像一份由长期凝视文书劳动的人写下的文件,清楚知道这套劳动会在哪里断裂。专利题名 “Art of Compiling Statistics”(统计编纂术)听上去宽泛,正文却异常具体:卡片、孔洞、印刷位置、针、汞杯、计数器、分类箱,还有反复出现的同一个问题,怎样防止一个人的事实滑进另一个人的统计栏。[1]

正因这份具体性,这项专利值得贴近文本细读。常见说法会说,Hollerith 机械化了 1890 年美国人口普查,并开启一条穿孔卡片谱系,后来进入企业数据处理,也通向 IBM。这个说法成立,却越过了真正的运作方式。Hollerith 的核心动作超过了加快计数:他把每个被登记的人转成一份独立的实体记录;这份记录可以反复接受计数、重新分类、核对和组合,由此避开每换一个问题就重抄整套普查材料。[1][2][3]

当时的人口普查正需要这种改变。美国人口普查局关于 1890 年普查的历史说明称,1880 年结果几乎花了十年才制表完成;到了 1890 年,普查提出的问题又比以往更多:农场和住房所有权、债务、联邦军老兵、寡妇、种族类别,以及单独的家庭表等。[2] 问题增加,带来的是总数之外的更多交叉制表,更多文书错误入口,也给临时办公室带来更大压力:它必须把数百万户访问转成公开统计。

图像说明:封面图是真实照片,拍摄的是 The Henry Ford 收藏的 1890 年 Hollerith 电动制表机。它在这里有用,因为机器上的表盘有实际功能。它们展示了这项专利的基本交易:把信息从普查表转移到卡片上,让电路推动计数器递增,再把实体卡片用于下一道问题,省去从头计数。[4]

专利从格式问题开始

Hollerith 的专利说明书于 1889 年 1 月 8 日 公布,申请日期是 1887 年 6 月。[1] 在文件开头,他描述了此前使用连续纸带或纸卷的做法,索引点依次排列。新专利转离这种格式。连续纸带可以承载记录;一旦工作要求反复分类,按性别计数,再按年龄,再按婚姻状态,再按这些事实的组合,它就显得笨重。[1]

这项专利的决定性替换,是独立卡片。Hollerith 不再使用一条长记录,而是提出独立的纸条、卡片或板片,上面印出孔洞应当出现的相对位置。最重要那句话很平实:每一张正确打孔的卡片都会成为“个体的永久记录”。[1] 用今天的说法,专利把数据采集与数据查询分开。放在十九世纪,这等于让办事员把从普查表得来的个人事实保存为可携带、可分类的物件。

这一点后来显得理所当然,只因卡片后来变得熟悉。在专利文本里,它一次处理了几个问题。印好的卡片模板告诉操作员每个类别应在何处落位。复制出来的板片让整组卡片上的对应位置保持一致。错误可以在单张卡上找到,不会埋在一卷纸里。整批卡片可以离开制表机预先准备,稍后再送到机器前。Hollerith 甚至强调,卡片可由“非熟练操作员”制作,因为系统的判断力已经被移进印刷版式、打孔位置和机器固定触点之中。[1]

这就是专利里的第一个历史洞见:机械化早在机器读取之前已经开始。它先从约束记录开始。

孔必须落在位置上

在专利里,孔洞不是一般意义上的标记;它的意义取决于标准化位置。某一格上的孔表示男性,另一格表示女性。一组位置记录年龄,另一组记录出生地,另一些记录死亡月份或死因。Hollerith 的例子来自 1886 年巴尔的摩死亡统计,卡片编码了月份、性别、民事状态、种族、年龄、职业、出生地、居住区,以及死因。[1]

这个例子重要,因为它显示,人口普查突破来自更早的市政数据难题。Hollerith 的发明起点,不是一台等待用途的抽象计算装置。他在搭建一套处理官僚事实的系统,而这些事实以反复出现的类别进入办公室。死亡证明、普查表或住户记录,只有在类别足够规则、能够映射到固定位置时,才可以被转化。

这种规则性同时带来概念成本和文书成本。一个人能够被计数,是因为提问的机构已经预先选定了类别。1890 年普查的类别带有明确历史位置:人口普查局指出,新问题涉及所有权和债务、老兵和寡妇,还包括属于当时种族秩序的种族类别、用词和区分。[2] Hollerith 的系统没有决定这些类别,却让它们更容易增殖。只要一个类别在卡片上有了位置,机器就能让它穿过许多张表。

这就是第二个洞见:穿孔卡片制表的速度带有方向,服务于国家预先写定的人口分类语法。

压板把读取变成接触

专利中的机器部分有强烈的物理感。卡片夹在两块板之间。可动压板带着一排弹簧针。凡有孔之处,针穿过卡片,伸入下方盛汞的容器,电路随之闭合。没有孔的地方,纸面挡住针。[1] 人口普查局的部件指南用更平直的历史语言描述同一原则:读卡器使用铰接板、弹簧针和汞井读取纸卡上的孔。[5]

这仍属于后来意义上的电子计算之前的世界。IBM 的历史页面把该装置描述为一台电力驱动的计数机,这个限制本身也是故事的一部分。[7] 1890 年的机器改变人口普查工作,靠的是一项更窄的转换:把人编码出的孔一次又一次转成表盘上可靠的递增,同时保留卡片,以便下一轮处理或下一次分类。

The Henry Ford 的藏品记录概括了这条基本链条:1880 年人口普查制表遭遇瓶颈后,Hollerith 的系统把数据转移到穿孔卡片;针穿过孔,进入充满汞的井;闭合的电路在表盘上登记数据。[4] 正因为有这条链,成排表盘看起来几乎像一排钟。它们把时间改造成行政读数:每根指针标出一项类别计数,而计数正从一连串个人卡片中累积出来。

从细读这项专利得到的教训是,“读取”是一场受控制的纸与电的碰撞。卡片既是存储物,也是人可以拿在手里的开关板。

分类是计数的另一半

单靠计数,Hollerith 已经足够有用;分类让他的系统改变了工作尺度。专利用了大量篇幅讨论怎样把记录卡分入各组,以及一张放错的卡怎样污染后续计算。[1] 他提出的回答,是一个带指示器的分类箱,指示器由电磁铁控制,使每张卡都能标出自己所属的分区。[1]

这个细节帮助拆开一个常见误解。穿孔卡片的意义,超过了更快得到一个总数。它让同一群人口可以回答不同问题。先按性别分开。再让每一组通过装置,统计婚姻状态。之后重新合并或继续细分。Hollerith 写道,可以统计的项目数量和多样性几乎没有限度,因为每一份个人记录都可以成为下一次编纂的基础。[1]

人口普查局 2016 年的历史页面说明了这点在实践中的分量。1888 年,一场使用圣路易斯数据的竞赛中,两台竞争设备把数据分入类别分别用了 44.5 小时和 55.5 小时;Hollerith 的设备完成同一分类任务只用了 5.5 小时。[3] 这些数字不只是一则速度轶事。它们标出了专利已经处理掉的瓶颈:数据采集之后的分类。

本文的中心论点就落在这里。人口普查的速度提升,来自人力与机器动作的新分工。办事员仍然把普查表数据抄到卡片上。操作员仍然处理卡片、压板和箱子。突破在于分工方式改变了:人把普查表翻译成标准化孔洞;机器把孔洞转成计数和分类信号;卡片保存了个人记录与汇总表之间的连接。

1890 年人口普查成为可反复使用的数据体

1890 年人口普查于 6 月 2 日 开始登记,因为 6 月 1 日是星期日。[2] 它动用了 175 名监督员,要求亲自访问住户和家庭,并且第一次给普查员发放详细地图,以便覆盖分配边界。[2] 这些现场细节重要,因为制表机没有清除普查工作杂乱的前端。它是在入户访问之后、普查表之后、从普查表到卡片的文书转录之后才开始发挥作用。

卡片一旦存在,后端就改变了。人口普查局称,Hollerith 在竞赛结果之后赢得处理并制表 1890 年数据的合同;这些机器帮助产生了 25 卷普查卷册、数百份公报、一部统计汇编、一部统计地图集,以及年度《Statistical Abstract》卷册。[3] 该局还说,在统计负担更大的情况下,1890 年数据比 1880 年数据早 18 个月面世。[3]

后来的使用确认了更深的变化。美国国会图书馆一篇关于 Hollerith 与 1903 年菲律宾人口普查的文章指出,1890 年系统把制表时间降到约两年半,同时也让此前难以实际执行的新型人口分类成为现实。[6] 第二点留下的遗产更令人不安。更快的总数是管理收益;更快的交叉制表,则是一种新的行政视力。

1902 年,人口普查局已经成为常设机构;到 1950 年代,它开始用 UNIVAC I 等计算机替换机械制表机。[3] 卡片、孔洞和计数器后来没有成为终点。它们成为记录处理长史中一个耐久阶段。

这份专利让我们看见什么

把 Hollerith 的专利作为原始文献来读,它不像常见发明故事那样英雄化,却更有意思。它展示了一套由许多细小控制拼合起来的系统:保持卡片印刷一致,在固定位置打孔,把每个个体保存为独立记录,让针测试孔洞,让电路推动计数器,让指示器引导分类,再把卡片用于下一道问题。[1]

数据史还需要从机器之外讲起。机器之所以重要,是因为人口普查已经成为一次巨大的分类行动。1890 年普查表提出更多问题,制造更多类别,把国家推向手工制表难以舒适承受的数据负担。[2] Hollerith 的回答没有减少国家的问题数量。它给了国家一种更好办法,对同一群人口提出许多问题。

这份专利的历史力量,就在这条边界上。Hollerith 没有发明计数、统计、官僚制或电气装置。他在它们之间架起了一座实用桥梁。一个人成为一张卡片;一张卡片成为一次电路事件;一次电路事件成为表盘的移动;一盘卡片成为一群可以被划分、再划分的人口。人口普查之所以能被电读取,是因为它先变成了穿孔纸上可辨认的记录。

来源

  1. Herman Hollerith, "Art of Compiling Statistics," 美国专利第 395,781 号,1889 年 1 月 8 日 - 美国人口普查局复刻的专利说明书。
  2. 美国人口普查局,"About the 1890 Decennial Census" - 普查规则、扩展问题、技术进步与 1921 年火灾说明。
  3. Jason G. Gauthier, "History and the Census: Herman Hollerith and Mechanical Tabulation," 美国人口普查局,2016 年 1 月 1 日 - 竞赛结果、1889 年专利、出版成果与后来机器使用。
  4. Google Arts & Culture / The Henry Ford, "Tabulating Machine, 1890" - 藏品记录,以及本文图片的照片来源。
  5. 美国人口普查局,"The Hollerith Machine" - 关于缩放描摹器、读卡器、制表机和分类机的部件指南。
  6. 美国国会图书馆 Manuscripts Blog,"The Power of the Punch Card: Herman Hollerith and the Philippine Census of 1903," 2021 年 11 月 10 日 - 1890 年后穿孔卡片制表与分类的延续。
  7. IBM, "The punched card tabulator" - 关于 Hollerith 电动计数机、穿孔卡片流程、人口普查竞赛与后来 IBM 谱系的历史概述。