含有"数据挖掘"标签的书籍

没有经过甄别的信息不是有价值的信息，没有经过分析的数据不是有价值的数据。作者居中国经济分析一线20余年，具有全球视野，深谙中国特色与国情，本书在揭开中国信息分析行业神秘面纱的同时，提供了系统全面的信息分析方法，带领人们穿过信息表面的迷障，读懂信息，直抵本质与真相。

这就是搜索引擎:核心技术详解

搜索引擎作为互联网发展中至关重要的一种应用，已经成为互联网各个领域的制高点，其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域，搜索引擎各个子系统是如何设计的？这成为广大技术人员和搜索引擎优化人员密切关注的内容。本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍，除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外，还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术，同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外，本书也密切关注搜索引擎发展的前沿技术：Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解，同时对于社会化搜索、实时搜索及情境搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解，全书大量引入形象的图片来讲解算法原理，相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。

计算广告：互联网商业变现的市场与技术

计算广告是一项新兴的研究课题，它涉及大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化以及微观经济学等诸多领域的知识。本书从实践出发，系统地介绍计算广告的产品、问题、系统和算法，并且从工业界的视角对这一领域具体技术的深入剖析。本书立足于广告市场的根本问题，从计算广告各个阶段所遇到的市场挑战出发，以广告系统业务形态的需求和变化为主线，依次介绍合约广告系统、竞价广告系统、程序化交易市场等重要课题，并对计算广告涉及的关键技术和算法做深入的探讨。无论是互联网公司商业化部门的产品技术人员，还是对个性化系统、大数据变现或交易有兴趣的产品技术人员，传统企业互联网化进程的决策者，传统广告业务的从业者，互联网创业者，计算机相关专业研究生，都会从阅读本书中受益匪浅。本文仅用于学习和交流目的，不代表异步社区观点。非商业转载请注明作译者、出处，并保留本文的原始链接。

其实你不知道你错得离谱

本书是美国情报机构培训情报人员的经典教科书，也是美国中央情报局情报官员的必备参考书，被誉为“情报分析的圣经”，多次再版加印。本书主要探讨了人类在判断不完整或模糊的信息过程中的认知心理问题，如何改善情报分析的思想，以帮助分析时弥补人类大脑在处理复杂问题方面的局限，这些复杂问题往往涉及模糊信息、多方参与和多变的环境。全书由思维模式、思考的工具、认知偏差和情报分析的改进等四部分组成，重点研究了以下问题：我们为什么看不到应该看到的东西。我们如何记住已经知道的事情。如何根据有限的信息做出准确的判断？怎样对问题进行结构分析？什么是竞争性假设分析法？我们的预测为何总是不够准确？

Github | Docker | Project