分类: 电脑硬件 | 被5人转藏 |
2008-07-31 02:45:00
小贴士:收藏帖子也能赚钱?太好了!

什么是PB?抱歉,各位苹科科的爱好者们,我说的不是PowerBook;抱歉,各位化学爱好者们,我说的也不是铅。这里想说的是PetaByte(也就是1000TB,或1,000,000GB)的纪元来临时的挑战。1PB的纪元?现在就想这个做啥?毕竟现在硬盘主流连1TB都还不到不是吗?从数据储存的角度来看,这样说是没错,七月号的Wired杂志上举了几个很生动的例子告诉我们,其实要用光1000TB的容量还蛮困难的:
·现在出去买一台玩家级的新电脑,容量大约是1TB(或者,小姜库存的*哔*片也大约这个数)。
·每周上传到社交网站Facebook上的照片总量是20TB。
·哈柏太空望远镜从发射以来产生的总数据量大约是120TB。
·大型强子碰撞器每周产生的数据量大约是330TB。
·美国国家气候中心所以收集下来的资料总量约是460TB。
·Youtube上所有的影片的总量约是530TB(比想象中小?)。
·Ancestry.com(一个家族追根数据库)加上内附的1790-2000人口普查数据大约是600TB。
看吧!PB的事还是留给后代子孙去烦恼好了,看起来要一次用掉1PB还早呢!是啦,要变出1PB的数据看起来是有困难,但从数据处理的角度来说,1PB只是Google服务器每72分钟处理的数据量而已。虽然从数据储存的角度来看,我们还处在TB时代,但已经有很多预兆告诉我们,下一个量级单位带来的会是完全不同的一组新挑战。小姜在后面想了五个可能:
PB时代的第一大挑战是什么?就是数据的过滤。就算人类已经有产生PB级数据的能力,但事实是我们并没有把这些数据全部有效地存取的技术。因此选择哪些数据更有价值,就成为了很重要的课题。之前就有提过的大型强子碰撞器,事实上因为是在观测为时非常短的现象,因此每秒大约要拍下十亿张的照片,才能确保不漏掉什么重要的事情。如果全部的数据都要保留的话,每秒钟就必须储存10PB左右的数据——也就是说每秒钟会塞满10000颗1TB容量的硬盘。这是一个靠现有技术绝对不可能办到的事情,所以必须靠硬件和软件的过滤,找出每秒大约100个值得关注的事。即使如此,一年仍将产生约15PB的数据,或15,000颗1TB的硬盘,藏在这些数据里头的,有黑洞、异次元、平行宇宙,还有两三个诺贝尔奖吧?
第二个挑战,是资料的分析。分析和过滤不一样,过滤是试图减少数据量,但分析却是变出更多的资料来。一个例子是选举结果的预测——一个仔细想想并没有意义,但无论候选人、选举人还是媒体都乐此不疲的游戏。美国在2004年时,候选人HowardDean收集了100GB的资料来分析,当时被认为是一个很恐怖的大数据库。今年的总统选举,Catalist公司收集了一个15TB的超大数据库,详细分析每个人的性别、婚姻、年龄、种族、收入等各种资料,并且从中获得判断一个人会投给共和党还是民主党的重要信息。依照同样的比例增加下去,下一次美国总统选举时的资料量和分析结果肯定会达到数PB之谱,届时对数据探勘、分析所需的运算资源的要求会非常可怕,或许非要用CloudComputing的方式才能运算的地步。嘿嘿,或许到时候预测系统都比你自已清楚你会投给谁…
第三个挑战,是数据的呈现。这是一个比较抽象的关念,举个例子说好了,目前数码相机分辨率都高达10mp或更多,但一般人用的屏幕就算是常见的高档屏幕分辨率(1920×1200)事实上才2.3mp而已。那多的那些资料不就可惜了?Wikipedia现在就有点这种感觉,很多很好的文章和内容因为不容易取得,很难发挥它应有的真正价值。
第四个挑战,是数据的传输。之前在网络上看过一个很有趣的问题:将1PB的资料从美国西岸送到中国,是用传输的快,还是用帆船把整个服务器运过去快?一点简单的数学告诉我们,要在合理的时间范围内把数据传完…就假设三个月好了。要在三个月内把1PB的数据传完,传输送率要大约1Gb/s才行。这个数字不是特别的不可能(学术单位间常常有这么大量数据来往),但绝对不是一般民众能负担得起的。以目前的技术来说,如果你要传1PB的超高画质*哔*片给在美国的朋友的话,绝对是用海运的比较快…
最后,第五个挑战,是数据的搜寻。拜Google大神所赐,这或许是我们最不须要要担心的一环了。但Google的强大也仅限于公开的网络而已,自已电脑上的档案要能分类清楚依然是很困难的一件事。WindowsVista本来想要加入的WinFS档案系统和随之而来的关连式档案架构似乎带来了一线曙光,但最后我们还是被卡在树状结构的NTFS里。当个人电脑数据量也到1PB的时候,嗯,真难想象到时候会是个怎么样的恶梦。
个人电脑容量跨越1GB门坎是多久以前?好像差不多是十年前,所以如果发展方向不变的话,再十年我们就会进入全面PB的时代。但在那之前,我们就已经有够多要担心的事了:在上面的五个问题当中,小姜最担心的是数据的传输,因为传输频宽的建立要时间和金钱的投入。要能够顺利地提升到下一个阶段,现在就要开始做准备啰!
返回顶部