未分类

在MacOS 11 Big Sur里使用 ML Compute 框架加速Tensorflow

ML Compute 是 MacOS 11 Big Sur 里新加入的机器学习加速引擎,可以提升神经网络的训练和预测速度。 同时苹果官方也提供了支持ML Compute的优化版本Tensorflow来利用这一特性。源码已经在github上开源提供。 提前准备 使用该特性前,需要先确保MacBook已经升级到最新版本(MacOS 11.0+),同时确保python升级到3.8版本。 python升级到3.8版本后,需要为tensorflow_mac创建一个虚拟环境(venv),执行命令 python3.8 -m venv tensorflow_macos 即可,该命令会创建一个名为tensorflow_macos的python3.8 虚拟环境,同时也会创建一个名为tensorflow_macos的目录,后面tensorflow_macos会安装在这个目录内的虚拟环境中。使用 cd tensorflow_macos 命令进入该目录,同时执行 pwd 展示该目录的完整路径,下面安装时会用到。… Read More »在MacOS 11 Big Sur里使用 ML Compute 框架加速Tensorflow

什么是对比学习(Contrastive Learning)?

  • by

本文翻译自:https://analyticsindiamag.com/contrastive-learning-self-supervised-ml/ 近年来,自我监督模式的成功可以归因于研究者对对比学习这一自我监督学习范式的重新兴趣。例如,人类可以辨认出野外的物体,即使我们不记得物体的确切样子。 我们通过记住高层特征而忽略微观层面的细节来做到这一点。所以,现在的问题是,我们是否可以建立一个不关注像素级细节,只编码足以区分不同对象的高级特征的表示学习算法?通过对比学习,研究人员正试图解决这一问题。 最近,甚至连Google的SimCLR也展示了对比学习的含义,我们将在本文的最后简要介绍这一点。 对比学习的基本原则 对比学习是一种为ML模型描述相似和不同事物的任务的方法。利用这种方法,可以训练机器学习模型来区分相似和不同的图像。 对比学习的内部工作可以表述为一个分数函数,它是衡量两个特征之间相似度的一个尺度。 在这里 x+是与x相似的数据点,称为阳性样本 x−是与x不同的数据点,称为阴性样本 在此基础上,可以构建一个softmax分类器来正确地对正样本和负样本进行分类。在最近引入的 SimCLR 框架中也可以找到这种技术的类似应用。 应用对比学习(Contrastive Learning) 谷歌推出了一个名为“SimCLR”的框架,使用对比学习。该框架首先学习未标记数据集上图像的一般表示,然后针对给定的分类任务,使用带标签图像的小数据集对其进行微调。 通过同时最大化同一图像的不同版本或视图之间的一致性,并通过对比学习缩小差异来学习基本表征。 当使用这个对比目标更新神经网络的参数时,相应视图的表示相互“吸引”,而非对应视图的表示相互“排斥”。 在这个博客中,对原始论文作了更细致的解释。 程序如下: 首先,从原始图像生成一定大小的批处理数据(Batch),比如N 对于这个批处理中的每个图像,应用一个随机变换函数来获得一对两个图像 一对图像中的每个增强图像都通过一个编码器来获得图像表示。 两个增强图像的表示然后通过一个非线性密集层,然后是一个ReLU,然后是另一个密集层。这些图像被传递到一系列这些层上,以应用非线性变换并将其投影到表示中 对于批处理中的每个增强图像,获取一个嵌入向量。… Read More »什么是对比学习(Contrastive Learning)?

讨厌社交媒体?你可能会喜欢 The Social Dilemma 这部纪录片

  • by

The Social Dilemma 认为,人类最大的生存威胁不是气候变化,而是Facebook。 在社会困境中穿插着一个戏剧性场景:一个虚构家庭中的儿子正被YouTube激进化。  作为一名纪录片制片人,杰夫·奥洛夫斯基似乎全神贯注于世界的毁灭。他在2012年拍摄的电影《追冰》捕捉到了气候变化对冰川融化的毁灭性影响。2017年,他记录了在追逐珊瑚的过程中珊瑚礁的侵蚀。他的最新电影《社会困境(The Social Dilemma)》瞄准了一个更大的危险:社交媒体。 社会困境不止一次表明,社交媒体代表着“人类最大的生存威胁”。去年4月,在旧金山的SFJazz中心,技术专家特里斯坦·哈里斯(Tristan Harris)公布了一项“科技新议程”。哈里斯(Harris)曾是谷歌(google)的一名员工,他在道德上对社交媒体表示担忧并将《时代》搬上了一个新的非营利组织,人文技术中心,他当天在台上正式介绍了这个中心。我们中的许多人都同情这个原因,让我们想起我们认识的魔鬼:错误信息、操纵、病毒性、上瘾、过滤泡沫、FOMO。但是哈里斯来这里是为了引起大家的关注。我们被控制了,就像大科技掌中的伏都教玩偶,我们像工厂养殖的肉一样被切碎出售。哈里斯说:“这不仅仅是一场争夺我们注意力的战斗。如果我们不知道这是人类的终结。 演讲结束后,在大厅里的小吃中,我和一家准备IPO的大型社交网站的创始人交谈。你怎么想的,我问。他告诉我,很有意思。我们聊了一会儿,眼睛睁得大大的,因为他们适应了剧院外面的光线,我们很快就要回去工作了,他在社交平台,我写的是关于社交平台的文章。我们都喜欢这个演示。但我们两个都不可能用一句话来概括到底是什么让技术出了那么大的问题,或者我们应该如何解决它。 同样的感觉也出现在今天Netflix上的《社交困境》之后。这部纪录片的目标是社会媒体对人性的毁灭性影响,哈里斯在SFJazz中心的演讲片段贯穿始终。就像那场演讲一样,这部纪录片带有一种庄重的气氛。它像审判律师一样起诉案件,传唤一个又一个证人出庭作证。他们包括许多我们今天所知的社交媒体的伟大设计师,比如Facebook前货币化总监蒂姆·肯德尔(Tim Kendall);发明“喜欢”按钮的贾斯汀·罗森斯坦(Justin Rosenstein);以及为YouTube创建推荐视频基础设施的纪尧姆·查斯洛特(Guillaume Chaslot),所有人都谴责他们以前的工作。 但是,尽管社会困境确定了问题的存在,但它仍在努力寻找臭味的来源。影片开始时,一位银幕外制片人问技术人员,社交媒体到底出了什么问题。最后是那些技术专家对未来的预言。大多数情况下,它显示的是技术人员在座位上蠕动,不知道从哪里开始。 但最终,他们开始交谈。因此,我们在社交媒体上花费的时间太多了。我们这样做是因为,本质上,我们别无选择。在科技公司工作的人投入了无限的金钱、时间和工程能力来设计系统,让我们沉迷其中,并预测我们的一举一动。这就是他们如何赚钱:我们不是用户,我们是产品(这样的陈词滥调经常重复)。马克·扎克伯格和苏珊·沃奇基都是亿万富翁;与此同时,其他人都放弃了幸福、知识、亲密、自发性、与家人在一起的时间、自由意志。我们是一个可怕计划的牺牲品。我们生活在20亿的杜鲁门电视剧里。我们生活在母体里! 当然,有点夸张,但这部电影并不精妙。奥洛夫斯基用一个贯穿于整部电影的怪异戏剧化叙事来强调这些批评,在这部影片中,演员们描绘了一个想象中的家庭与技术之间的陈规定型冲突。餐桌上没有眼神交流,一个十几岁的女儿在社交媒体上自尊心受损,一个十几岁的儿子开始在手机上听越来越激进的视频。有一次,当这个十几岁的男孩粘在他的手机上时,电影切到了一个隐喻的“控制中心”,人们在操纵男孩的饲料,而“我给你施了咒”在背景中播放。以防万一你没注意到。 很多处于社会困境中的事情,尤其是这个家庭的关系,在2020年会感觉古板。是的,我们的手机改变了我们与家人和朋友互动的方式。是的,孩子们特别脆弱。但这些都不是特别新鲜,甚至没有什么有趣的。毕竟,哈里斯多年来一直在强调这些观点,而他在这方面绝非孤军奋战。就连扎克伯格这样的社交媒体高管也承认,他们的平台需要家长和立法者的更多监督。 观察冠状病毒大流行期间的社会困境增加了些许讽刺。这部电影的诞生正值许多美国学校转向在线学习,创纪录的美国人在家工作,可靠的互联网比以往任何时候都更加珍贵。即使是社交媒体也有新的价值,作为一种联系朋友和家人的方式,我们看不到。这些平台与我们的生活息息相关。那些无法使用手机、电脑或稳定WiFi的人可能会发现,到2020年,他们并没有实现某种天顶般的涅盘,而是被排除在工作、学校和社会的其他地方。 这种社会困境表明了“好”技术和“坏”技术的区别;哈里斯一度承认,搭车应用程序的发明让人感觉很神奇。不过,总的来说,这部电影混淆了批评,在对社交媒体的攻击和更广泛的技术攻击之间交替进行。有时,它也过分简化了社交媒体对整个社会的影响。例如,它提出了一个观点,即青少年抑郁症的激增可以追溯到社交媒体的兴起。当然,这是第一代在Instagram上长大的美国孩子,但他们也在考虑气候变化、摇摆不定的民主、种族主义、社会制度的衰落、直升机育儿以及其他许多可能,或许会助长忧郁情绪的因素的不可逆转的影响。(许多专家警告说,不要将社交媒体与心理健康之间的直接因果关系画上等号。)虽然社交媒体会加剧欺凌、孤独或不切实际的美貌标准等问题,但它们肯定不是它发明的。 哈里斯最终在社会困境的结尾承认了这一点。社交媒体本身并不是存在的威胁。相反,这是社交媒体浮出水面并放大人性最坏一面的方式。那么,这场战争与其说是大科技,不如说是人类可怕的冲动。这是一部电影中一个短暂的智慧瞬间,否则会让观众惊醒。不幸的是,无论是哈里斯还是纪录片都没有给那些已经清醒的人提供太多实用的建议。任何在社交媒体上花费超过几分钟的人都知道这是一团糟。我们该怎么办?负责的是,制片人在纪录片的结尾问了这个问题。技术人员提出了一些想法:调整设计。改变商业模式。制定新的规章制度。彻底关闭这些公司。不过,大多数情况下,他们的回答都是茫然的。

差分隐私项目实践——统计数据隐私保护

  • by

0. 差分隐私简介 随着GDPR法规的实施,各大公司为了避免罚款,开始重视用户个人隐私的保护。差分隐私是近年新兴的一个研究领域,主要研究如何使用数学方法保护数据中的用户个人隐私。 简单而言,差分隐私主要通过给数据增加随机噪音来污染数据,来达到保护隐私的作用。但噪音的多少至关重要,如果噪音太少不足以达到隐私保护的目的,如果噪音太多就会掩盖有价值信息。而具体往数据中增加多少噪音,就是差分隐私需要讨论的问题 1. 问题背景 我们假设一个企业想要发布自己用户的统计信息,例如:T宝计划发布用户每个城市的用户每年平均消费金额,作为某个活动的宣传文案。直观来看,公布城市的统计数据(比如平均值)并不会泄漏任何人的隐私。但在最坏的可能下,少数人的数据会因此而暴露。 具体情景如下:假设X城市总人数为100人,T宝公布的该城市2018年人均消费金额是1万元,2019年人均消费金额暴增到2万元。同时你从其他信息渠道得知,某知名富二代Y在2019年搬入X城市。X城市现在的人口是101人。 那么根据平均值的定义,我们可以推算出,客户Y的年消费金额是 2万*101-1万*100=102万 虽然该公司只是公布了X城市两年的人居消费数据,但在不经意间暴露了一位新来客户的信息。这就是差分隐私要解决的问题之一 2. \(\epsilon\)-差分隐私 开始之前,需要先量化需要解决的问题。在上面的例子中,主要的问题来自于连续公布的两个统计量(1万和2万)相差太大,带来了隐私泄露。 此类问题的解决方案称为\(\epsilon\)-差分隐私。\(\epsilon\)-差分隐私是差分隐私的一种,它将需要解决的问题用规范的数学形式描述为: \[ \frac{\Pr[{\mathcal {A}}(D)\in S]}{\Pr[{\mathcal {A}}(D‘)\in S]} \leq \exp \left(\epsilon \right)… Read More »差分隐私项目实践——统计数据隐私保护

「数据」是互联网商业模式的核心基础

  • by

最近计划优化文献计量分析平台,受制于可用的数据,许多功能无法顺利开发,由此深切感受到数据的重要性。互联网产品的核心价值是传递信息,而实现这一功能的重要前提就是拥有足够多的数据来支撑信息的提取。 文献计量分析平台计划增加更多的数据分析功能,这需要大量的文献数据作为分析基础,特别是引文信息、摘要信息。尽管这些信息都可以在各个期刊网站上查阅到,但如果需要一个免费的数据中心便捷的获取结构化的数据却十分困难。根据目前的调研,大部分论文数据可以在crossref上通过doi信息免费获取,引用关系可以在opencitation获取,但二者并不包含摘要。如果需要真正分析论文的内容,只能求助于知名的摘要数据库,比如Web of Science或者Scopus。而这两家对于免费的数据接口进行了非常多的限制,想要获取完整的摘要数据,需要进行付费商业合作。 而替代方案则是通过爬虫直接访问期刊论文网站直接获取文献信息,但依然存在很多困难 许多期刊网站都增加了反爬虫保护,需要相当大的反「反爬虫」工作量,这样做得不偿失 不同出版社的网站模版并不一致,这也更加增加了论文信息提取的工作量 完成这些调研后发现,看似信息自由流通的互联网,四处充满了信息阀门与高墙。优质的数据是核心商业竞争力,限制数据访问保持核心竞争力是自然而然的事情。例如互联网巨头Google也是通过采集整理几乎整个互联网的数据并提供给用户来起家的,但如果想要通过爬虫抓取Google的数据,则会遭到机器人检查限制访问,毕竟数据是Google的核心竞争力,也是最重要的壁垒。类似的事情例如微信公众号文章和淘宝商品页面,都会严格禁止百度抓取,因此在百度上几乎不可能找到微信公众号文章或者淘宝的商品,这也是微信和淘宝的重要数据壁垒。 当然这种壁垒也并非完全坚不可摧,一种解决方案就是发动众包的力量。回到文献数据, ResearchGate 网站在数据方面就很机智,直接发动所有用户自主上传、完善数据,并在平台内建立了完善的文献数据和社交网络生态。这样的发展方式也非常值得借鉴。 最后总结互联网产品设计时在数据竞争力方面需要思考的问题: 能否提供独特的数据,并与其他人带来竞争优势 如何合法、高效地搜集整理互联网上的数据,增加自己的竞争力 如何保护数据不被三方窃取 如何让数据保持更新、保持价值

未来的科学

1.  科学的本质 什么是科学研究?公认的定义是:科学研究就是发现和解释自然界(现在已经扩展到人类社会)现象和规律的行为[1]。美国犹他大学的助理教授Matt Might也曾用流行一时的一组图来阐释[2]:科学研究的本质代表这一个人对人类的知识向前推进了一步。 给人类『创造知识』,听起来无比高尚,但其中存在着许多的问题。现有的科学事实上给人类造成了更多的『无知』[3]:每一个新的科学发现,可能伴随着10个新的科学问题。例如每一篇学术论文的最后章节,都会提出许多新的研究问题。再比如,即使我们对物质的认识从分子、原子,发展到质子,基本粒子的存在还是一个假设。问题增加的速度远超过解答的速度。『吾生也有涯,而知也无涯。以有涯随无涯,殆已!』[4]。我们不得不接受一个事实:这个世界的知识/规律是无穷无尽的。 此外,很多公认的知识在若干年后会被证明是『错误』的,比如牛顿的经典力学被爱因斯坦证明在接近光速时是错误的。这种错误并非来自个人的智力不足或者随机的失误,背后的根本原因是人类注定无法认识到世界的真实面貌,这是一种『可谬论』的哲学观点。如哥德尔不完备定理[5]在形式上证明了:任何完整或完备的公理系统是不存在的,即使是在最严谨的数学中也存在诸如罗素悖论[6]等基本悖论。再如明希豪森三重困境(Munchhausen-Trilemma)阐明了任何逻辑推演最终还是会落入:循环论证、无限论证、或者公理假设的三者之一。就连老子的『道可道非常道,名可名非常名』[7]也在阐述这个观点。 总言之,我们对这个世界的探索是无法穷尽的, 同时我们对这个世界的认识也总是不正确的、近似的。在这种前提下,如果还宣称科学研究是为了探索真理和真识,就显得有些自大了。 2.  科研的核心是解决问题 大多数的科学研究只是为了『解决问题』而已。George Box有句名言:『所有模型都是錯的,但有些是有用的』[8]。这句话同样可以套用到科学研究上。 尽管科学研究的理论并不一定是客观正确的,但它们往往都能解决人类社会的某些问题。 事实上,大多数研究课题的确都遵循者『实用主义』的原则。一项研究必须能够对当下(以及可预期的未来)社会经济文化发展起到作用。比如中国科学院的办院方针之一就是:『……面向国家重大需求,面向国民经济主战场……』[9]。在这个背景下,极少数研究是单纯为了探索世界而开展的(除非探索本身也能解决问题)。在当今社会,还剩下多少『无用』的科学? 需要注意的是,大多数情况下『有用』并非科研的动机,而是对科研结果的一种评判。尽管主流观点拒绝功利化的科研,但事实上在人类社会中,被铭记下来的科学成果都是『有用』的。但是这种『有用』经常需要很长时间来显现出来。而那些无法解决问题的科研成果,往往被视为『无用』,至少是暂时被认为『无用』。而这便是科研的风险。 3.  未来的科研 科学研究有巨大的风险,它很可能到最后一无所获,但也可能带来巨大的回报。而且科学研究的价值往往是难以在短期内兑现的,毕竟大多数科研成果带来的是长远价值。科研主体需要有足够的财力来承担这种长期投资带来的风险(可能最终一无所获)与资金成本(现金流断裂)。然而能够具备这种财力者注定只能是国家支持的研究部门,如研究所和大学(还有日本皇室)。 然而随着现代金融行业的兴盛,以及大规模企业的增多,越来越多的民间组织能够通过金融和法律工具(专利法规、股权投资)来分摊科研风险,并开办实验室,比如各种大企业(如IBM、Google,SpaceX)、私人基金(比尔及梅琳达·盖茨基金会)都开始资助科学研究。国家主导的科研行业将逐渐退缩到国家战略和人类利益相关的基础研究领域,比如历史考古、大型强子对撞机、国际空间站、宇宙探索等。 任何能够解决问题并有利可图的研究,即使暂时无法盈利,也会在市场经济秩序下,通过各类金融工具得到企业甚至个人的支持。这是科研行业未来的重要趋势:研究不再是大学和研究所的专属。特别是在直接创造社会价值的领域(比如人工智能),企业将会用金钱吸引更多的科学家更快的创造出新成果。Google等公司大量招聘知名教授已经证明了计算机领域的这个趋势,未来越来越多的其他领域都会继续出现这一现象。不仅如此,『横向项目』、政府和大学的各种『孵化器』和促进『成果转化』的政策、大学与企业合办实验室也在印证这种趋势。在大学找一份工作将不再是科学家的唯一选择。 4.  个人的发展 许多科研工作者的待遇低、压力大,本质上也是这一趋势带来的后果。科学研究在市场化的过程中,其回报逐渐趋近于相应行业的平均社会贡献。其中有商业价值的行业自然能够通过商业化获取高额回报。而那些不直接给社会创造价值的学者自然会得到相对较低的回报。 另一方面,在市场经济的规则下,任何劳动者所创造的价值并不是单方面的取决于劳动者本身,同时也受到买卖双方市场的制约。如果供过于求,劳动者单位时间创造的价值必然减少。由于各方面原因,大量毕业生跟风读博,但是国家相应的科研资助却逐渐缩减到基础研究。这也可能进一步降低科研工作者的待遇。 对于科研从业者而言,改善这一现状的途径只有『用脚投票』:通过改行来减少本行业的供应,从而提升其他同行的价格。在许多过热领域(比如生物、化学)已经涌现出了许多这样的例子,并形成了一股转行风气[10]。不仅如此,转行不仅能够改善本专业同行的待遇,同时也是一次改善自己生存状态的机会。… Read More »未来的科学

个人财富管理笔记

个人的财富管理三大部分:风险控制、收入提升、资本增值。『风险控制』是指控制生活中可能造成财富贬值的风险;『收入提升』是加速财富积累的重要途径;『资本增值』则是在通胀经济环境下进行财富保值的手段。 1.   风险控制 个人最重大的风险通常是个人健康,和个人工作能力的丧失(疾病、衰老、失业等原因)。 在社会福利完备的国家,个人往往不必为此担心。但对于大多数人而言,医疗、失业和养老都会对个人财富带来极大的贬值风险。因此此类风险的控制,是财富管理的重要内容之一。 事实上中国社会形成了一套自己的风险对抗体系:即以家族成员互助的方式来抵抗意外事件,同时也形成了中国特色的养老体系:『养儿防老』。但这套体系正在被城市化的小家庭社会瓦解。 在现代社会,风险控制的重要途径就是购买『保险』。任何人都应当为自己准备一份重大疾病医疗保险和养老保险。对于外出旅行者,则务必购买出行意外险(如旅行意外险、航空意外险等)。购买保险需要注意保费、保额和生效条件,实际中很多保险产品保额极低。对于没有条件购买上述保险的人,则应当通过一定量 的个人储蓄来应对医疗、失业和养老支出。 2.   劳动收入的提升 个人财富的增长应当主要来自于个人劳动创造价值,而非个人资本增值。而个人劳动收入取决于两方面因素:工作时间与单位时间创造的价值。持续工作即可保持财富持续积累。 对于大多数人而言,一生中的工作时间是有限的。我们更应当关注的是财富积累的速度,即个人单位时间创造的价值。因此有一个原则:『凡是有利于提高赚钱效率的事情都是值得的』。 『提高赚钱效率』包含很多方面:教育投资、工具升级、时间节约、健康与休息等。 教育投资的重要性相信很多人都理解。尤其是当个人的资本收入超过劳动收入时,则意味着个人进入了低效率劳动阶段。此时应当加大对个人教育的投资,来提升劳动收入。罗振宇和李笑来在这方面做足了宣传,本文不再赘述。 工具升级是指为自己购买能够提升效率的工具,比如更好的MacBook,更舒适的座椅和键盘,更大的显示器,更好的笔…… 时间节省主要是通过改变消费观念来实现,李笑来有一个原则『免费的才是最贵的』。通常能花钱解决的问题,就不要花时间。高价商品所带来的不仅仅是高质量,更能避免选择所花费的时间。节省下来的时间可以创造更多的价值。但如果没有能力创造更多价值,那就把省下来的时间用在学习上,提升自己未来的价值。 健康与休息重要性不言而喻,如果不能好好工作,那就好好休息与锻炼。为接下来的工作做好准备。 3.   资本增值 3.1.               基本原则 资本增值就是指合理调配现有财富,确保其不会因不可抗力而贬值。实施资本增值应当遵循以下原则: 遵循理智与逻辑; 专注保值、而非获利; 分散投资; 不碰不懂的资产;… Read More »个人财富管理笔记

人生的意义,就是追寻终极的自由

1.   原生家庭 罗辑思维最近的节目中借一本新书[1]介绍了一个广泛存在于中国的现象:大多数幼稚的成人(尤其是中国、韩国,也包括世界其它国家)的思维仍然保持着婴儿时期的模式:即依赖、自恋、偏执。这种性格特征极有可能在人们抚养子女时影响子女的人格发展,将这种病态的性格遗传下去,并陷入无穷无尽的循环。 这种影响模式也被称为原生家庭的影响。例如家庭贫穷则会导致节俭甚至吝啬的习惯,而这种习惯极可能继续导致贫穷[2],以至于整个家族陷入贫困的轮回。贫穷问题的根源往往不在于钱,而是别的地方,大多彩票中奖者在很短时间内就将奖金挥霍一空。一个处于社会底层的人想要攀升,第一步就是摆脱原生家庭的负面影响。比如,每个寒门出贵子的故事,往往都伴随着一段异地(远离原生家庭)求学的经历。 不仅仅是原生家庭,原生社会(一个人所生长的社会文化环境)也会在人的心智中刻上深深的烙印。比如中国人不管移居到世界上的哪个角落,都会保留中国人的行为习惯(如吃不惯西餐、融不进西方社会等)。而这种中华文化对于在国外成长的华裔的影响则显著减弱,二代移民往往能够更加顺利地融入当地文化、适应西式生活。这种社会影响来自于个体所成长的社会中各种信息源的潜移默化(即洗脑),如:公共教育;媒体宣传;电视节目;商业广告(比如钻石营销);亲朋之间的社交熏陶。一个没有经受过任何正式教育的中国人都明白『面子』、『客气』、『人情』的丰富含义,这都是原生社会的功劳。 在地理学中上有一种『地理决定论』[3],认为地理条件决定了人的生活习惯和文化特点。比如世界文明古国皆因具备大规模发展农业的地理条件;中国东部的平坦地貌促成了中国早期政治文化的的统一,而欧洲的分裂则是因为欧洲地势所导致。费孝通也曾试图以平原的农耕文明为基础,解释整个中国的乡土文化[4]。现今社会很多人都会使用地名指代一群人,比如:『东北爷们』、『西北汉子』、『江南才子』、『山东大汉』。虽然这些称呼均有以偏概全和地域歧视之嫌,但都反映了一个社会的共识:一个人的出生地对其性格有着重大的影响。 不仅如此,有些性格还深深的刻在了人的基因中,成为『人性』。最为典型的就是人类对多巴胺的上瘾。它造成了人类对糖与脂肪无节制的摄入,通过心脏病、高血压带走了无数人的生命。它也造成了人对性与毒品难以抑制的渴望,让无数人走向了自我毁灭。中国人在千年前就总结出来了『食色性也』[5]的道理。 2.   历史的囚徒 基于这些现象,我们几乎可以总结出:人的本质,就是其所承受的家庭(家族)、社会(民族和文化)、及基因的综合体。在日常生活中,一个人的每一个观念和行为,本质上都来自于其过往成长环境所塑造出来的『经验』。 要命的是,这种成长环境(基因、家庭、种族)并非我们自由选择的结果,而是先天随机分配的。作为个体只能被动的接受。而我们的每一个选择,都基于这种被动接受到的『经验』,主观意志的作用微乎其微。 比如一个过度追逐美食的人,很难意识到自己的健康被自己的基因所绑架;一个传统的中国父母,很难效仿西方社会子女成年即分家并经济独立的模式;有些宗教信仰必须传递给子女且不可背叛;许多同性恋(以及LGBTIQ)迫于社会和家庭压力不得不接受异性婚姻;大多数人对美与时尚的理解本质上来自于社会的洗脑;人的择偶标准都优先考虑外表(容貌、身材等)…… 所有这些现象都指向同一个问题:对于大多数人,主观意志经常是缺失的。人们其实只是历史的囚徒,人们很少做出基于个人意愿的选择。 这是一件很可怕的事情:如果没有了自由意志,人和动物有什么区别? 3.   自由意志 什么是自由意志呢?我认为自由意志应当是我们独立作出选择的内在意识。 尽管『自由意志』存在与否尚不得而知,但主流的人类文明都是拒绝『决定论』的。因为在『决定论』的社会,人们的每一个选择,都只是更大设计的一部分。一切『惩罚』、『奖赏』、『卑鄙』、『高尚』、『责任』都是没有意义的,因为一切都是『命中注定』,一切都不是我们『自由』的选择[6]。在此基础上继续推理,我们一切的努力都是徒劳,因为从宇宙大爆炸开始,所有事情都已被安排好。这让人联想到了《楚门的世界》、《黑客帝国》等电影,这样的设定令人难以接受。 事实上,自由意志仍旧是哲学中悬而未决的难题,我们并不知道人类是否拥有『自由意志』。但有一点是肯定的:我们有『自由感』[7]。所谓『自由感』,就是我们自觉地意识到自己的行为是自己的选择,而非毫无缘由的冲动或社会外在因素的强迫。只有拥有了『自由感』,才能消除无缘无故的焦虑、失控的愤怒,才能排除无谓的干扰,专注地体验生命。 很可能原生条件(基因、家庭、种族)与自由意志共同影响着人类的行为,类似『意识』与『潜意识』对人类的影响。我们也许很难在生活中达到100%的『自由意志』。而我们的人生目标,就应当是尽可能的加强自由意志对生命的掌控。换句话说就是,『将命运牢牢掌握在自己手中』,做自己人生的主人。 4.   人的意义 因此,人生中最有意义的事情,就是在自己的日常生活中,摆脱所有先天的设定,移除所有来自基因、家庭和种族的潜移默化的影响,寻求完全自由的意志。并在此基础上达成更加高级的人生目标(例如探索宇宙、改变世界、造福人类等)。 自由意志并不是一个终极的结果,而是一种状态。它是一种时刻自省,摒除潜意识控制,尽可能保持有意识状态(mindfulness)的生活方式。具体而言,应该包含这三个部分:不断刷新的世界观,不断优化的方法论,不断的践行。 不断刷新的世界观,是人类一切认知与行为的基石。一个人想要获得尽可能多的自由意志,就需要尽可能完整地认识宇宙与客观世界、多样的人类文明、社会经济的运行规律,避免成为『井底之蛙』。具体而言就是靠不停的补充新概念,淘汰旧概念来实现。所谓『读万卷书不如行万里路』,持续地去探索这个世界,升级自己意识中的概念库,就是升级自己的世界观[8]。… Read More »人生的意义,就是追寻终极的自由

加权线性回归(Weighted Linear Regression)的公式及其推理

1.加权线性回归与普通线性回归

对于一组有N个观测的数据

$$(x_i,y_i), i = 1,2,3,4,…, N$$

可以使用一元线性回归模型

$$y = a x + b + \epsilon$$

来拟合 \(x\) 与 \(y\) 之间的关系。其中的参数 \(a,b\) 通常使用最小二乘拟合,即寻找使代价函数

$$J(a,b) = \frac{1}{N}\sum^{N}_{i=1}{(y_i-ax_i-b)^2}$$

最小的\(a,b\),使得拟合曲线尽可能地接近所有的观测点。

但在实际应用中,观测点之间可能是有差异的。比如,有的观测点误差大,有的观测点误差小,这就需要让我们的拟合直线\(y=ax+b\),不必考虑误差大的观测点,而要尽可能逼近误差小的观测点。这时就可以使用一个权重系数\(w_i\)来表示第\(i\)个观测点的权重(例如,对于误差小的观测点,\(w_i\)的值更大) 而考虑了这个权重系数\(w_i\)的线性回归,就是加权线性回归。

Read More »加权线性回归(Weighted Linear Regression)的公式及其推理