数据之美

出版时间:2010年10月  出版社:机械工业出版社  作者:Toby Segaran,Jeff Hammerbacher  页数:354  译者:祝洪凯,李妹芳,段炼  
Tag标签:无  

前言

我一直对数据挖掘很感兴趣,尤其是通过对海量、抽象甚至枯燥的数据进行挖掘分析后,利用数据可视化工具展现出来的那种绚丽多彩、富含意蕴的数据之美更是令我痴迷、叹为观止。本书涉及领域很广,各领域的精英们向我们娓娓道来相关领域的数据信息系统的架构的设计,包括Yahoo!的云存储架构、Deep Web数据抓取、Face book的信息平台、自然语言处理、“凤凰号”火星探测器的图像数据处理、探索数据生命的DNA漫谈,甚至是Radio head视频的制作、旧金山的次贷危机等。阅读完本书之后,我自己的一个很大的收获是对于自己比较了解的领域,如云存储、Deep Web、NLP等有了进一步的理解和实践指导,而对于那些完全不熟悉的领域,如探索数据生命、火星探测器、制作Radio head视频等则更是开阔了视野,不但对数据有了新的认识,而且激发了思考问题的一些新的思维方式。这本书令我很感怀的另一方面是,我发现这些“数据科学家”在兢兢业业构建平台处理数据的过程中,虽然遇到了很多困难和挑战,但是却依然如此坚持、执着地探索数据之美。在翻译本书过程中,这种激情不仅激励着我完成这本书的翻译,同时也激励着我在生活、工作中要有毅力和恒心。而纵观我身边的阿里巴巴云计算的同事们——这些“阿里数据科学家”们,也无一不是那种永远充满着激情致力于我们的“飞天”梦想!这是我翻译的第一本书,很感激机械工业出版社华章公司编辑陈冀康先生慷慨地引我入门,并且对因为我前段时期项目开发非常紧张而导致翻译进度几乎停滞的宽容和理解表示深深感激。感谢所有其他为本书付出努力的人们。由于时间和精力有限,本书的疏漏、错误之处在所难免,还望各位读者不吝批评指正。

内容概要

本书揭示了数据发现可以是多么广泛和美丽!在本书中,39位业内最佳数据实践者揭秘了他们如何为各种项目开发简单优雅的解决方案,例如火星着陆探测器、Radiohead视频的制作等。在本书中,你将:
  探索在海量的在线数据集中所固有的机遇和挑战
  学习如何使用地图和数据“混搭”(mashup)来对都市犯罪趋势进行可视化
  发现“开放来源”(crowdsourcing)和透明化如何改善药物研究的现状
  理解新的数据可能会覆盖已有数据时,如何向用户报警
  了解DNA数据处理所需要的大规模的基础设施

作者简介

译者:祝洪凯 李妹芳 段炼 编者:(美国)托比(Toby Segaran) (美国)Jeff Hammerbacher

书籍目录

前言
第1章 在数据中观察生活 
 NathanYau
 个人环境影响报告(PEIR)
 your.flowingdata(YFD)
 个人数据收集
 数据存储
 数据处理
 数据可视化
 要点
 如何参与
第2章 美丽的人们:设计数据收集方法时牢记用户
 JonathanFollett和MatthewHolm
 简介:用户共鸣正当其时
 项目:关于一个新奢侈品的用户调查
 数据收集面临的特殊挑战
 设计解决方案
 结论和反思
第3章 火星上的嵌入式图像数据处理
 J.M.Hughes
 摘要
 简介
 一些背景
 数据是否打包
 三个任务
 对图像切槽
 传递图像:三个任务间的通信
 获取图片:图像下载和处理
 图像压缩
 “下行”或一切都从这里向下传输
 结束语
第4章 PNUTShell中的云存储设计
 BrianFCooper、RaghuRamakrishnan和UtkarshSrivastava
 简介
 更新数据
 复杂查询
 和其他系统的比较
 结论
 致谢
 参考文献
第5章 信息平台和数据科学家的兴起
 JeffHammerbacher
 图书馆和大脑
 Facebook具有了“自知之明”
 商业智能系统
 数据仓库的消亡和重起
 超越数据仓库
 “猎豹”和“大象”
 ……
第6章 照片档案的地理之美
第7章 数据发现数据
第8章 实时的可移动数据
第9章 探寻Deep Web
第10章 构建Radiohead的“House of cards”
第11章 都市数据可视化
第12章 Sense.us的设计
第13章 数据所做不到的
第14章 自然语言语料库数据
第15章 数据中的生命:DNA漫谈
第16章 美化真实世界中的数据
第17章 数据浅析:探索形形色色的社会定型
第18章 旧金山海湾区之殇:次贷危机的影响
第19章 美丽的政治数据
第20章 边接数据
附录 作者简介

章节摘录

插图:正如由机器人完成的任务生成的数据非常宝贵,需要返回这些数据的通信带宽也是非常宝贵的。对于较小的图像,比如那些通过子图定位或者抽样操作,图片大小已经减少了,因此直接执行“下行”操作而不做压缩处理是可行的。更大的图像,比如全尺寸大小的ssI图像,“下行”操作会消耗很多带宽,因此在这种情况下,通常采用压缩方法来解决。ICS采用像素映射和扩展,提供了两种压缩和减少图像大小的方式。对于某个特定的图片,采用哪种压缩或减少图像大小方式,主要依赖于图像需要达到的保真程度,高保真被认为是图像的一个必要方面。在一些情况下,每个像素8位就足够了;而在其他一些情况下,JPEG压缩本身造成的图像保真损失是可以接受的;而对于一些情况,图像需要保持尽可能高的保真,则可以采用无损压缩的方式。在ICS内部,一台JPEG压缩器采用所有的整数算术计算和就地操作,提供所谓的“有损”压缩方式。JPEG被认为是有损的,因为其压缩过程丢失了部分图像数据。JPEG可以通过命令,对图像数据实现不同程度的压缩。最终代码是松散式地基于Mars’98使命的JPEG压缩器;虽然凤凰号火星着陆探测器的ICS的实现只采用了其部分原始代码。原始的JPEG压缩器使用的是浮点数乘以全尺寸大小的图像数组作为缓存,并采用动态内存分配方式。对于这种方式如何在飞行软件上正常工作,我仍然感到很困惑,不过它确实能够正常工作。在压缩代码中使用浮点数来表示像素数据,这也意味着对于每个图像,比起16位整数的原始图像表示方式,浮点数占用了其四倍的内存空间。第二种压缩方式,也称为Rice无损压缩(Rice Lossless)或者Rice压缩,采用了由Jet Propulsion实验室的Robert Rice开发的一种算法。该Rice算法可以对图像数据实现几乎2:1的压缩效果,且没有数据损失。而JPEG算法在压缩过程中丢失了部分数据。Rice压缩方法也是在图像槽中就地对图像进行压缩。两种无压缩的缩小图像大小技术或者采用查询表,把12位的像素值映射到8位的像素值,或者采用位缩小技术,对像素数据向右移动4位,生成一个每个像素8位的图像。JPEG和Rice压缩函数都接受12位或者8位的图像数据。

媒体关注与评论

“数据实际上已经是下一代计算机应用的真正核心。本书中,各位业界精英描述了在他们的项目中如何以全新的方式来驾驭数据的力量。对于任何对数据的未来和问题的解决感兴趣的读者来说,本书都是一部必读之作。”  ——Tim O'Reilly,O'Reilly Media公司创始人兼CEO

图书封面

图书标签Tags

评论、评分、阅读与下载


    数据之美 PDF格式下载


用户评论 (总计60条)

 
 

  •   期待已久的好书,是《数据可视化之美》的姊妹篇。
  •   涉及的领域相当广,对数据的表现方法和数据可视化以及用户交互这些方面都会有很好的启发。
  •   从采集来源、处理方式、展现形式等几个方面来介绍数据,值得一看
  •   众多的数据解决方案真实案例为我提供了很好的借鉴。
  •   每一个案例都是当前比较流行的网站数据架构方式,很值得一读,可以开阔眼界!
  •   此书为你揭示数据另一面。为你展示了数据其实并不枯燥。
  •   个人感觉更偏向于做数据展示。给处理数据的人提供了一些指引和思路
  •   适合从事数据工作,并且有一定经验的人看,这本书可以用来开阔视野,里面有facebook和yahoo内部人讲的小故事,很不错!
  •   通过很多例子来讲述数据使用的各种demo,很不错的书
  •   没想到还有这个的中文版,14章统计自然语言节,比《数学之美》详细多了!推荐
  •   需要一定基础才能看懂。
  •   可以多方面了解下当前时代时髦的技术,整体来说扩宽视野,增加了解还是不错的
  •   应该是正品,有防伪标志,东西不错 物流太给力了,第二天就收到了
  •   只能欣赏,上面的知识一时半伙还用不上,全当扩充知识面了
  •   封面很漂亮,像个猕猴桃,呵呵
  •   还没有仔细看,但内容不错
  •   以前看过部分章节,觉得很好,这次活动顺便就买了
  •   书还没有仔细看,大略翻了下,纸张不错,内容的话排版有些太密了。而且,封面太丑了。
  •   这本书相对来说还算比较新,是从英文版翻译过来的。英文版2009年出版。中文版2010年10月出版。由20篇相互独立的文章组成。每篇讲一个数据处理相关的项目。不涉及具体的技术细节,仅仅是概括说明原理、思路、过程、结果。

    总体来说,阅读起来有点晦涩。感觉作者基本都明白英文版的意思,不过有些地方中文表达上不够通顺。这在IT业的翻译书中已经算不错的组合了,强过中文过关但是不懂技术的情况。

    其中讲数据可视化的文章有几篇。还都比较有意思。比如第六章“照片档案的地理之美”,说的是英国的一个名叫“Geograph”的项目,收集了大量的英国的照片及普通用户对照片的标签,作者分析这些标签,并且用图形化的方法把许多分析结果展现出来;第11章“都市数据可视化”,讲的是把警察局的犯罪发生的数据与地图结合起来,预测犯罪发生的地点与类型从而提早预防;第12章“Sense.us的设计”讲以可视化手段分析美国150年以来的人口数据,得出许多有趣的结论;第17章“数据浅析:探索形形色色的社会定型”说的是用图形化方法分析一个网站的大量用户相互之间的评论;第19章“美丽的政治数据”同样使用可视化手段分析选举相关数据。

    第4章“PNUTShell中的云存储设计”,说的是雅虎的一个云存储的项目PNUTShell的设计思路和优缺点。这个项目面对的应用主要是社交方面的应用,数据一致性要求不高,可用性、扩展性要求很高。因此就对一致性做了一些牺牲,满足比较高的可用性和扩展性。数据只要最终按照操作顺序执行了相关的操作,最终一致就可以了。每一条数据都记录了版本号,好知道自己执行到那个步骤了。每一条记录还需要记录自己是不是主备份。写操作要先写主备份然后逐步同步到其他数据库上。如果系统发现用户比较频繁地写数据但是主备份所在服务器的物理距离与用户的物理距离比较远,就自动把主备份记录转移到距离用户更近的服务器上。如果主备份损坏,系统也会从剩下的数据中挑选最合适的一条做主备份。

    第9章“探寻Deep Web”说的是如何让搜索引擎自动搜索Form表单。Form表单可以有无穷个组合,这篇文章给出一些基本思路来让搜索引擎判断如何去选择下拉列表或者去填写文本框,目标是用尽量少的操作步骤尽量多地获取form表单后面的数据库中的内容。
  •   此本书既不讲解技术,也不讲解领域,通过对一些现实例子的分析来阐述数据带给我们的美。
    读完的感觉并不是技术上的收获,而是拓展了我们的视野。
  •   部门总监推荐的书,适合做数据分析商户分析的同学们学习。你能从一些简单的数据中发现别人发现不了的问题
  •   作为一个地图应用的开发者,对这本书大量和地图数据结合的数据展现案例自然是非常有感
  •   从技术的角度,不建议读,技术层面介绍的很少
    从解决方案的角度,可以读一下,开阔视野。
    另外,印刷质量一般
  •   没事时看着玩儿
  •   比较专业的书籍,可以开拓思维。
  •   还可以吧,增广见闻不错
  •   还未读,翻了翻感觉还好
  •   不是实操新型的书,各章节来源于美国各大顶尖技术公司
  •   内容比较杂,但是有好多实践的经验是其他树立找不到的。
  •   需要过段时间看才能感觉
  •   书本质量还可以,印刷也不错。单篇文档内容还可以,但本书就值缺乏一个整体的思想,显得有些杂乱!建议内容挑选上做一些改进。
  •   很有见地,文字轻巧却不乏教导意义,作者经验丰富,书中实例可操作性强
  •   导师推荐的。但我读起来比较费劲。
  •   对于非专业的,很难。
  •   太专业看不懂
  •   我自己的错,现在已经没有耐心读进纯技术的书籍了.. 唉
  •   说实话,感觉原版介绍的的内容还是不错的,举得例子涉及了很多领域,但是糟糕的是翻译是个外行,把数据之美重绘的一团糟,很多地方像在读google翻译的文字。
  •   刚刚收到书,打开发现合订的地方都歪了,裂了好几条纹,强烈要求换货
  •   这本书相对来说还算比较新,是从英文版翻译过来的。英文版2009年出版。中文版2010年10月出版。由20篇相互独立的文章组成。每篇讲一个数据处理相关的项目。不涉及具体的技术细节,仅仅是概括说明原理、思路、过程、结果。总体来说,阅读起来有点晦涩。感觉作者基本都明白英文版的意思,不过有些地方中文表达上不够通顺。这在IT业的翻译书中已经算不错的组合了,强过中文过关但是不懂技术的情况。其中讲数据可视化的文章有几篇。还都比较有意思。比如第六章“照片档案的地理之美”,说的是英国的一个名叫“Geograph”的项目,收集了大量的英国的照片及普通用户对照片的标签,作者分析这些标签,并且用图形化的方法把许多分析结果展现出来;第11章“都市数据可视化”,讲的是把警察局的犯罪发生的数据与地图结合起来,预测犯罪发生的地点与类型从而提早预防;第12章“Sense.us的设计”讲以可视化手段分析美国150年以来的人口数据,得出许多有趣的结论;第17章“数据浅析:探索形形色色的社会定型”说的是用图形化方法分析一个网站的大量用户相互之间的评论;第19章“美丽的政治数据”同样使用可视化手段分析选举相关数据。第4章“PNUTShell中的云存储设计”,说的是雅虎的一个云存储的项目PNUTShell的设计思路和优缺点。这个项目面对的应用主要是社交方...面的应用,数据一致性要求不高,可用性、扩展性要求很高。因此就对一致性做了一些牺牲,满足比较高的可用性和扩展性。数据只要最终按照操作顺序执行了相关的操作,最终一致就可以了。每一条数据都记录了版本号,好知道自己执行到那个步骤了。每一条记录还需要记录自己是不是主备份。写操作要先写主备份然后逐步同步到其他数据库上。如果系统发现用户比较频繁地写数据但是主备份所在服务器的物理距离与用户的物理距离比较远,就自动把主备份记录转移到距离用户更近的服务器上。如果主备份损坏,系统也会从剩下的数据中挑选最合适的一条做主备份。第9章“探寻Deep Web”说的是如何让搜索引擎自动搜索Form表单。Form表单可以有无穷个组合,这篇文章给出一些基本思路来让搜索引擎判断如何去选择下拉列表或者去填写文本框,目标是用尽量少的操作步骤尽量多地获取form表单后面的数据库中的内容。 阅读更多 ›
  •   此本书既不讲解技术,也不讲解领域,通过对一些现实例子的分析来阐述数据带给我们的美。读完的感觉并不是技术上的收获,而是拓展了我们的视野。
  •   一是纸质、印刷都很棒,二是英文也不是太难,当然我只看了几篇的开头……
  •   介绍的东西很不错。了解了好的思路。
  •   比《大数据时代》在技术上更深入,又不是特别深入,对于我这种伪GEEK来说,刚刚好。一般俺不爱挑翻译的毛病,不耽误看就成。不过这本书,着实读着别扭,求店家送英文版……
  •   所有括号里的英文都少了第二个字母,转换程序就算有BUG,难道就不手工查看吗?
  •   Kindle版恐怕是校对得不认真,出现很多不应该的错漏,影响阅读。
  •   就是一论文合集,作为资料看一看,没啥特别的感觉
  •   这本书深入浅出,讲述了大数据应用的多个方面,有利于深入开发互联网资源,为企业升级服务。
  •   可能偏向于技术层面吧,所以我感觉不出来作者对于数据美感的说明
  •   灰常好的一本书 不错啊
  •   纯英文,学术很强,完全看不进去,我想适合这个专业的博士或者研究人员阅读,不适合程序员
  •   经验是可以学习的,此书必读
  •   这本书对于DBA工程师非常有用
  •   什么东西都介绍了,又什么都没介绍清楚,有些读着都很不顺。
  •   还没看 不好做过多的评价
  •   最近流行xx之美,这本书评价很高
  •   还没来得及翻,品相不错!
  •   学习研究数据的典型书籍
  •   书有点贵,还集中地数据挖掘方面的
  •   时代之巅
  •   认识大数据
 

250万本中文图书简介、评论、评分,PDF格式免费下载。 第一图书网 手机版

京ICP备13047387号-7