深度长文谷歌巨资建造的大型数字图书馆,为

编者按:这可能是谷歌成立以来最让人无奈的项目了,前后耗时8年,花费了4亿美元,将万本书数字化,最后只能被封存起来。这背后到底有什么故事?《大西洋月刊》发表了文章详细地介绍了该项目的前因后果,以及其面临的重重阻力。文章由36氪编译。

一、

只需要点击一下,你就能获得几乎每一本已出版的书的全文。除了正在印刷的书你必须付费购买。其他所有的书籍,你都能一个比美国国会图书馆、哈佛大学图书馆、密歇根大学图书馆、乃至任何一个伟大的欧洲国家图书馆所收藏的图书都要多得多的“图书馆”中看到,而这个图书馆将会为所有的地方图书馆提供免费访问终端。

在终端上,你可以搜索数千万册图书,阅读你找到的任何一本书的每一页。你可以做标记,进行注释,并分享它们;这是第一次,你可以在浩瀚的印刷记录中找到一个想法,然后通过链接直接发送给其他人。书籍将会像网页一样,成为即时可用、可搜索、可复制-粘贴的。

这让一个长久以来的梦想变成了现实。“千年来,人们一直在谈论建设一座世界图书馆,”牛津大学博德莱安图书馆馆长理查德奥芬登(RichardOvenden)说。“在文艺复兴时期,人们认为,在一个单独的房间或一个机构里能收集到所有已发表的知识是有可能的。”年春天,我们似乎把它建在了一个小得足以放在书桌上的终端上。

“这是一个分水岭事件,可以成为教育、研究和知识再创造的催化剂,”当时一位热心的观察者写道。

然而,当年3月22日,根据《联邦民事诉讼规则》第23(e)(2)条的规定,那份能够解锁一个世纪有价值的书籍、并在全国范围内向图书馆提供接入终端的法律协议,被纽约南部地区的美国地方法院驳回。

当亚历山大图书馆烧毁时,被称为是一场“国际灾难”。但是,当我们这个时代最重要的人文学科项目在法庭上被废除时,学者、档案管理员和图书馆员们都松了一口气,因为他们觉得自己侥幸避免了一场灾难。

二、

年,拉里佩奇(LarryPage)和玛丽莎梅耶尔(MarissaMayer)坐在办公室里,手里拿着一本页的书和一个节拍器。谷歌想要秘密扫描世界上每一本书,这个项目的代号为“ProjectOcean”。

佩奇想知道扫描多万本书需要多长时间,所以他从一本身边的书开始。他和梅耶尔用节拍器来保持一种稳定的节奏,完整的翻阅了这本书。他们花了40分钟。

佩奇一直想把书籍数字化。早在年,最终成为谷歌的学生项目——“爬虫”(crawler)——可以对文档进行整理,根据用户的查询进行相关性排序——实际上就是“建设一个单一的、集成的、通用的数字图书馆开发技术”想法的一部分。具体来说,这个想法是,在未来,一旦所有的书籍都数字化了,就能绘制出它们之间的引文,看看哪些书被引用得最多,然后利用这些数据为图书馆读者提供更好的搜索结果。但是,纸质书仍然占据着主流。佩奇和他的研究伙伴谢尔盖布林(SergeyBrin)利用万维网(WorldWideWeb)的网页,提出了他们备受欢迎的想法——引用次数。这也就是谷歌搜索引擎的基础之一。

到了年,佩奇觉得回到书本上的时机可能已经成熟了。但是考虑到这个40分钟的数字实在是太长,他找到了他的母校密歇根大学,也是书籍“扫描-数字化”领域的领先者,想知道最新的大规模数字化书籍的技术是什么样的。密歇根大学告诉佩奇,按照目前的速度,将其图书馆的全部藏书数字化——万册——大约需要一千年的时间。不过,佩奇现在也已经考虑过这个问题了,他回答说,谷歌可以在6分钟内完成一本书。

他向密歇根大学的图书馆提出了一个协议:让我们借你所有的藏书,,我们会帮你扫描。你最终会得到一份关于所有藏书的数字化拷贝,谷歌最终将获得世界上尚未开发的大量数据之一。布林是这样描述谷歌对图书馆图书的欲望的:"你拥有数千年的人类知识,而且可能最高质量的知识都藏在书中。"如果你可以把所有被锁在纸上的知识输送给搜索引擎,你会怎么做?

到年,谷歌开始扫描。在短短十年的时间里,在与密歇根大学图书馆、哈佛大学图书馆、斯坦福大学图书馆、牛津大学图书馆、纽约公共图书馆以及其他数十个图书馆达成交易后,发展速度远远超过了佩奇的预测:一共扫描了大约万本图书。他们花费了大约4亿美元。这不仅是技术上的一项壮举,也是物流领域的一项壮举。

三、

每个工作日,装满书的半挂卡车都会停在指定的谷歌扫描中心门口。在谷歌的山景城园区一个改造后的办公大楼里,斯坦福大学图书馆的藏书正在被“吞下”。书是从卡车上卸下的,放在图书馆里能找到的那种手推车上,然后推到坐在几十个灯火通明的扫描站之一的人类操作员那里,六到八英尺排成一行。

这些扫描站使用的扫描仪器与其他的普通设备并不一样,全是由谷歌定制的。使得每个人都可能以每小时0页的速度将书籍数字化。书将放在一个特殊设计的电动支架上,能够自动调整书脊,并固定好位置。在上面,有一排灯和至少价值1,美元的光学设备,包括四个摄像头,其中两个负责拍照(每个负责一半)。还有一个测距激光雷达,在书本表面覆盖了三维激光网格,以捕捉纸张的弯曲程度。人类操作员会用手翻页,然后用脚踩下踏板,摄像头就会拍照。就像对着一架奇怪的钢琴演奏一样。

这个系统如此高效的原因在于,它把大量的工作留给了软件。按照传统的图书扫描系统的方法,在拍摄照片之前,为了避免传统的图书扫描系统出现延迟,要确保书籍的每一页都是完美地对齐和平整的。在谷歌的系统中,人工操作员只需要翻页就可以,De-Warping算法能够利用激光雷达提供的数据来将“粗糙”的图像转化成“完美”的样子。

在全盛时期,这个项目大约配备了50名全职软件工程师。他们开发了光学字符识别软件,将原始图像转化为文本;他们编写了De-Warping和色彩校正以及对比度调整的程序,使图像更容易处理;他们开发了图书插图和图表检测算法,并提取页码,将脚注转化为真正的引用。而且,也根据布林和佩奇的早期研究,按相关性对图书进行了排名。“书籍不是网络的一部分,”丹克兰西(DanClancy)说,他曾是该项目全盛时期的工程主管。“要理解图书之间的关系,我们面临着巨大的研究挑战。”

谷歌(Google)的其他成员痴迷于让应用程序变得更"社交化"——GooglePlus于年发布——那些从事图书工作的人将图书视为旧时代的一个项目,就像搜索本身一样,只不过这些项目和谷歌"组织世界信息并使其普遍可访问和有用"的使命非常契合。

这是谷歌“登月计划”的第一个项目。在自动驾驶汽车和ProjectLoon之前。甚至一些做这个项目的谷歌员工也认为这是无用的。"他们会想,我们为什么要把所有的钱都花在这个项目上?"克兰西对我说。"一旦谷歌开始意识到它是如何花钱的,那就像是,等等,你一年能挣4万美元,扫描成本每年5万美元?在完成之前要花费三亿到四亿美元吗?你在想什么?但拉里和谢尔盖非常支持这个项目。"

年8月,谷歌发布了一篇博客文章,称世界上有本图书,谷歌要把它们全部扫描一遍。

当然,结果并非如此。这个特别的登月计划项目落下了大约一亿册书籍。当时的情况很复杂,但事情的起因很简单:在听说谷歌从图书馆借阅了数百万册图书,扫描它们,并将它们归还——仿佛什么都没发生过一样时,作者和出版商对该公司提起了诉讼,声称这是“大规模的版权侵犯”。

四、

谷歌开始扫描时,实际上并不打算建立一个数字图书馆,这个想法以后才会出现。他们最初的目标是让你搜索书籍。对于有版权的书籍,他们只会显示一些"片段",只是一些关于你的搜索时用到的句子。他们把服务比作卡片目录。

谷歌认为,创建一个卡片目录受到"公平使用"的保护,这个版权法原则允许学者摘录别人的作品以便讨论它。"公平和不公平之间界限的一个关键部分就是转变,"谷歌律师戴维德拉蒙德(DavidDrummond)表示,"是的,当我们数字化的时候,我们正在复制。但是,因为一个术语出现在一本书里而找到这本书的能力,与阅读这本书是不一样的。这就是为什么谷歌图书是一个与书籍不同的产品。"

德拉蒙德的观点是正确的。按照版权的"故意侵权"的法定损害赔偿规定,每一项被侵犯的作品可能高达15万美元。谷歌抄袭数千万本书的潜在赔偿责任可能会达到数万亿美元。版权所有者猛烈抨击,“谷歌有理由担心,所以要用’公平使用‘来防御。”加州大学伯克利分校法学教授帕梅拉萨缪尔森(PamelaSamuelson)在年写道。

但谷歌没有征求任何人的同意,反而“抢劫”了图书馆。这显然是错误的:如果你想复制一本书,你必须有权复制它ーー你必须拥有该死的版权。让谷歌从美国的每一本书的大规模复制中脱颖而出,这给了他们一个危险的先例,这可能会让他们的版权变得毫无价值。一个名为作家协会的倡导组织和几个书籍作者,代表有版权利益的人对谷歌提起集体诉讼。(一群出版商提起了自己的诉讼,但在此后不久加入了作者协会的集体诉讼。)

事实上,科技公司在发明新的内容分发方式时,忽视知识产权的传统已经有很长的历史了。在20世纪初期,“钢琴卷”的制造商忽视了乐谱版权,并被音乐出版商起诉。同样的事情也发生在黑胶唱片制造商和商业广播的早期供应商身上。在60年代,有线电视运营商在没有得到许可的情况下重播了广播电视信号,然后发现自己陷入了代价高昂的诉讼中。电影制片厂起诉录像机制造商。音乐公司起诉KazaA和Napster。

正如蒂姆吴(TimWu)在年的法律评论文章中指出的那样,这些诉讼的结果并不是版权所有人压制了新技术。相反,他们达成了协议,并开始从中赚钱。这通常采取"强制许可"的形式,例如,音乐家被要求把他们的作品授权给钢琴卷制造商,但作为交换,钢琴卷制造商必须支付固定费用,比如每首歌两美分。音乐家有了新的收入来源,公众可以在钢琴卷上听到他们最喜欢的歌曲。:"历史已经表明,时间和市场力量往往能够平衡利益,"吴写道。

但是,即使每个人最终都能获得成功,既得利益者也害怕被新技术取代。当录像机出来的时候,电影公司的管理人员大肆抨击。时任美国电影协会主席的杰克瓦伦蒂(JackValenti)在国会作证时表示:"我要告诉你,录像机对美国电影制片人和美国公众来说,就像一个绞杀手。各大制片公司起诉索尼,称该公司正试图通过录像机来建立一个知识产权盗窃的业务。但是,索尼案迫使电影业接受录像机的存在。只要复制设备能够"实质性的非侵权性使用"——就像观看家庭电影的人一样——它的制造者不应该为侵犯版权而承担责任。

不久之后,他们开始将这款设备视为一个赚钱机会。一位评论员在2年写道:“录像机是最赚钱的发明之一,对电影制片人和硬件制造商来说都是如此。”

仅仅花了几年时间,那些起诉谷歌的作者和出版商意识到,有足够多的中间地带让所有人都满意。特别是当你把注意力集中在“绝版”图书上,而不是放在商店的货架上的图书时,这一点尤其明显。一旦你做出了这样的区分,就有可能从另一个角度看待整个项目。也许谷歌没有夺走任何人的工作。也许谷歌提供了一个新的生活。谷歌图书(GoogleBooks)可能会被证明是一本绝版图书,就像录像机一样。

如果这是真的,你就不会真的想阻止谷歌扫描绝版图书ーー而是会鼓励它。事实上,你希望他们不仅仅是展示一些片段,而是希望将这些书作为数字化书籍来销售。绝版书籍,从定义上来说,是商业上的沉重负担。如果谷歌通过大规模数字化,可以为它们创造一个新的市场,那将是作者和出版商真正的胜利。"我们意识到有机会为这个国家的读者和学者做一些非同寻常的事情。"当时担任美国出版商协会主席的理查德萨诺夫(RichardSarnoff)当时表示,“我们意识到,我们可以把这个行业的绝版书单列出来,做两件事:发现和消费。”

但是一旦你有了这个目标,诉讼本身——关于谷歌是否可以继续扫描和显示片段——开始显得微不足道。假设作家协会赢了:他们不太可能收回超过法定最低损失的收益;如果谷歌停止提供旧书片段又有什么好处呢?如果这可能会刺激需求的话。假设谷歌赢了:作家和出版商什么也得不到,所有读者都能搜索到绝版图书,但那就只能是片段——不能访问完整的文本。

换句话说,原告让自己陷入了一个非同寻常的境地。他们不想输掉自己的诉讼,但他们也不想赢。

五、

绝大多数绝版图书的基本问题在于,谁拥有这些图书的版权并不清楚。40年前,作者可能与出版商签订了一份图书协议;那份合同规定,在该书出版后,版权归作者所有,但要求作者发出通知,可能没有提及数字版权,所有这些都被记录在一些没有人拥有的纸上。

据估计,在年至年间出版的书籍中,大约有一半实际上是不受版权保护的,只是没有人知道哪一半。当时的版权必须更新,而且通常有权利的人也不会费心去申请文件;如果他们这样做了,文件可能会丢失。弄清楚谁拥有某本书的权利的成本最终可能超过了这本书本身的市场价值。“让人们去研究每一本书,”萨诺夫对我说,"这在经济上是不可能完成的任务。"因此,大多数绝版书籍都会被封存起来,如果不是版权问题,那么就是由于不便。

美国作家协会诉谷歌案的转折点是,其意识到,谷歌提供了一种完全避开这个问题的方法。作家协会是一个集体诉讼,在集体诉讼中,被提名的原告代表整个集体提起诉讼(尽管任何人都可以选择退出)。

因此,从理论上讲,每一个作家和出版商都可以通过版权来约束美国图书馆的一本书。特别是,你可以起草一份协议,让版权所有人,作为一个阶级,同意就谷歌扫描和显示他们的图书发表声明,以换取这些书的销售收入分成。

代表本案出版商的DebevoisePlimpton的合伙人杰夫库纳德(JeffCunard)表示:"如果你遇到了某种制度问题,你可以通过一个集体诉讼解决机制来解决这个问题,该机制会可以放弃所有过去的主张,并在未来的基础上提出解决方案。我认为这里的天才之处在于,他们认为这是解决绝版图书问题的一种方式,并将它们从那些肮脏的角落中解放出来。"

这是一种黑客行为。如果你能让全阶层同意你的解决方案,如果你能说服法官批准你的解决方案ーー这是法律规定的一步,因为你想确保阶层代表的行为符合阶层的最佳利益ーー那么你就可以一下子解开“绝版书籍模棱两可的权利”这个难解之谜。随着集体诉讼的解决,作者和出版商实际上会对谷歌说:"去吧。"

当然,他们必须得到一些回报。这就是聪明的地方。解决办法的核心是对绝版图书实行集体许可制度。作者和出版商可以随时退出他们的书籍。对于那些没有这样做的人来说,谷歌将有很大的自由去展示和出售他们的书籍,但是作为回报,63%的收入将由一个名为“图书版权登记处”的新实体托管。其工作是在权利人站出来时向他们分配资金;在模棱两可的情况下,部分资金将用于查明谁实际拥有这些书的版权。

"图书出版业不是世界上最健康的行业,个人作者也不会从绝版书籍中赚到钱,"库纳德对我说。"并不是说他们会用谷歌图书和图书版权登记处制造大量美元,但他们至少会因此得到一些报酬。而且,大多数作者实际上希望他们的书籍能够被阅读。"

后来被称为谷歌图书搜索修正协议的数量达到页,附录超过12页。花了两年半的时间才敲定细节。萨诺夫将谈判描述为作者、出版商、图书馆和谷歌之间的"四维象棋"。"每个人都参与进来了,"他对我说,"我的意思是,这个问题的各个方面的每一个人——都认为,如果我们想要解决这个问题,这将是他们职业生涯中最重要的一件事。"最终,这笔交易让谷歌陷入困境,损失约1.25亿美元,其中包括一笔一次性的万美元支付给它所扫描的图书的版权持有者——大约每本书60美元、以及出版商的万美元的法律费用、还有0万美元给作者、万美元用于创建图书版权登记处。

但它也为新释放出来的绝版图书该如何展示和出售设定了条件。根据协议,谷歌将能够提供一本书最多20%的预览,以吸引个人用户购买,并且可以提供可下载的副本供出售,价格由算法决定,或由个人权利机构决定,售价最初从1.99美元到29.99美元不等。所有绝版书籍将被打包成一个"机构订阅数据库",出售给大学,在那里,学生和教师可以免费搜索和阅读所有的藏书。在4.8(a)中,协议用平淡无奇的法律术语描述了一种无与伦比的公共设施的创建,即将在终端机上向全国各地的地方图书馆提供"公共接入服务"。

整理这些细节花费了多年的时间来诉讼和谈判,但是现在,在年,有一个计划——一个看起来对在座的每个人都同样有效的计划。正如伯克利大学法学教授萨缪尔森当时在一篇论文中所言:"因此,拟议的解决方案看起来像一个双赢:图书馆可以获得数以百万计的图书,谷歌将能够收回它的投资,作者和出版商将从那些收益率为零的图书中获得新的收入来源。立法也没有必要受到该结果的影响。"

她写道,这“可能是有史以来最冒险的集体诉讼。”但在她看来,这正是它失败的原因。

六、

作家协会提交修订后的和解协议使得案件成了头条新闻。这确实是件大事——将引发整个行业的振动。作家,出版商,谷歌的竞争对手,法律学者,图书管理员,美国政府,以及感兴趣的公众都在



转载请注明地址:http://www.szchengshan.com/lyzn/13456.html
  • 上一篇文章:
  • 下一篇文章: 没有了