2016 年是 Salesforce 的关键一年。 就在那时,公司收购了 MetaMind,正如创始人 Richard Socher 所描述的那样,“一个企业 AI 平台,用于医疗成像和电子商务图像以及 NLP 和其他一些东西,一个水平平台作为开发人员的机器学习工具”。
如果这在今天听起来很有趣,那在当时可能已经超前了。 此次收购促使 Socher 成为 Salesforce 的首席数据科学家,带领 100 多名研究人员和数百名工程师致力于在 Salesforce 规模和影响下部署的应用程序。 AI 成为 Salesforce 努力不可或缺的一部分,主要是通过 Salesforce Einstein,这是一项将 AI 功能注入 Salesforce 平台的广泛计划。
除了以市场为导向的努力外,Salesforce 还赞助“AI for good”计划。 这包括 Salesforce 构想的登月计划:构建一个 AI 社会规划师,为现实世界学习最佳经济政策。 这个名为“人工智能经济学家”的项目最近发布了一些新结果。 Salesforce 首席研究科学家、AI 经济学家团队高级经理 Stephan Zheng 分享了项目背景、成果和路线图。
强化学习作为经济政策的工具
在深度学习爆炸式增长的 2013 年前后,Zheng 正在攻读物理学博士学位。他在 Salesforce 工作的动机是双重的:“突破机器学习的界限以发现通用智能的原理,同时也 做社会公益”。
郑认为,社会经济问题是我们这个时代最关键的问题之一。 吸引他从事这一特定研究方向的是,近几十年来经济不平等现象不断加剧,对经济机会、健康和社会福利产生了负面影响。
郑指出,税收是促进平等的重要政府工具。 然而,他认为,政府设计有助于创造平等同时推动经济生产力的税收结构具有挑战性。 他补充说,部分问题与经济模型本身有关。
“在传统经济学中,如果人们想要优化他们的政策,他们需要做出很多假设。例如,他们可能会说世界每年或多或少都是一样的。没有什么真正的变化那么大。
这真的很拘束。 这意味着,如果你审视世界可以改变你周围的所有方式,那么如果你考虑这个世界的丰富性,很多这些方法并没有真正找到最好的策略,”郑说。
Salesforce AI 经济学家团队试图通过应用一种称为强化学习 (RL) 的特定类型的机器学习来解决这个问题。 RL 已被用于构建 AlphaGo 等系统,它不同于机器学习中普遍存在的监督学习方法。
“在监督学习中,有人给你一个静态数据集,然后你尝试学习数据中的模式。相反,在强化学习中,你有这种模拟,这种交互式环境,算法学会观察世界并进行交互 通过模拟。然后,它实际上可以在环境中玩耍,它可以改变环境的工作方式,”郑解释道。
这种灵活性是人工智能经济学家选择 RL 的主要原因。 正如郑所阐述的那样,这种方法分为三个部分。 有模拟本身,策略的优化,然后还有数据,因为数据可以用来告知模拟是如何工作的。 人工智能经济学家专注于建模和模拟经济的一个简化子集:所得税。
创建了一个二维世界,对空间和时间关系进行建模。 在这个世界里,代理人可以工作、开采资源、建造房屋,并以此方式赚钱。 代理商通过建造房屋赚取的收入然后由政府征税。 AI 经济学家的任务是设计一个可以优化平等(人们收入的相似程度)和生产力(所有收入的总和)的税收制度。
人工智能建模与现实世界
Salesforce 的研究表明,与三种替代方案相比,人工智能可以改善收入平等与生产力之间的权衡:Emmanuel Saez 开发的著名税收公式、类似于美国税收公式的累进税和自由市场(无税)。 正如 Zheng 解释的那样,这 3 个备选方案被编码到系统中,并且它们的结果是通过 RL 模拟与 AI 派生的结果进行比较的。
虽然这听起来很有希望,但我们也应该注意到这项研究的局限性。 首先,该研究仅涉及极度简化的经济体中的所得税:不存在资产、国际贸易等类似事物,只有一种类型的活动。 此外,此时系统中的代理总数最多为 10。
郑指出,该研究考虑了许多不同的空间布局和资源分布,以及具有不同技能组合或技能水平的代理人。 他还提到,目前的工作是概念验证,专注于问题的 AI 部分。
“我们正在解决的关键概念问题是政府试图优化这项政策,但我们也可以使用人工智能来模拟经济将如何反过来做出反应。这就是我们所说的两级 RL 问题。
从这个角度来看,在经济和政府中拥有十个代理人已经很难解决了。 我们真的必须投入大量工作来寻找算法,找到正确的学习策略组合,让系统真正找到这些非常好的税收政策解决方案,”郑说。
Zheng 补充说,看看人们如何使用 RL 来训练系统玩某些类型的视频游戏或国际象棋,这些已经是非常困难的搜索和优化问题,即使他们只使用两个或十个智能体。 他声称人工智能经济学家比那些系统更有效率。
Zheng 表示,AI Economist 团队有信心,既然他们已经很好地掌握了学习部分,他们就可以很好地思考未来并将这项工作扩展到其他方面。
在 AI Economist 的早期版本中,该团队还尝试让人类玩家参与模拟。 这导致了更多的噪音,因为人们的行为方式不一致; 然而,根据 Zheng 的说法,AI 经济学家仍然实现了更高的质量和生产力水平。
经济学和经济学家
就这项研究而言,一些明显的问题是经济学家对此有何看法,以及他们的见解是否也在该系统中建模。 AI Economist 团队的成员实际上都不是经济学家。 然而,郑说,他们咨询了一些经济学家。
“刚开始时,我们没有经济学家,所以我们与计算机科学和经济学专业的大卫帕克斯合作。在工作过程中,我们确实与经济学家交谈并听取了他们的意见 反馈。我们也和[经济学家和畅销书作者]托马斯·皮凯蒂交流过,他是一个很忙的人,所以我觉得他觉得这个工作很有趣。
他还在某种程度上提出了有关如何实施这些政策的问题。 您可以从多个方面来考虑这一点,但总的来说他对这项工作很感兴趣。 我认为这反映了经济界更广泛的反应。 关于这是否可实施既有兴趣也有疑问。 我们需要做什么? 这是经济学界值得思考的问题”,郑说。
至于前进的方向,郑认为是“让这个广泛有用,并产生一些积极的社会影响”。 郑补充说,团队正在努力的方向之一是如何更接近现实世界。
一方面,这意味着建立更大更好的模拟,因此它们更准确、更真实。 郑认为,这将是经济建模和政策设计框架的关键组成部分。 对于 AI 研究人员来说,其中很大一部分是证明您可以信任这些方法。
“你想展示稳健性和可解释性。我们想告诉这里的每个人人工智能推荐这个或那个政策的原因。而且,我坚信这是一个跨学科的问题。我认为这里的机会真的是人工智能 研究人员与经济学家合作,与政策专家合作,不仅要了解他们问题的技术层面,还要了解该技术如何对社会有用”,郑说。
郑在这项研究中强调的两个方面是目标设定和透明度。 目标设定,即要优化的结果,是在外部完成的。 这意味着系统是否应该针对最大平等、最大生产率、它们的平衡进行优化,或者在未来可能纳入其他参数(例如可持续性),这取决于用户的设计选择。
郑将“完全透明”描述为该项目的基石。 郑说,如果将来这些类型的系统的迭代要用于社会公益,那么每个人都应该能够检查、质疑和批评它们。 为了实现这一目标,AI Economist团队开源了所有基于研究的代码和实验数据。
AI 经济学家团队前进的另一部分是更多地接触经济学家社区。 “我认为这里有相当多的教育,今天的经济学家没有接受过计算机科学家的培训。例如,他们通常没有被教授用 Python 编程。像 RL 这样的东西可能也不是他们标准课程的一部分,或者 他们的思维方式。我认为这里有一个非常好的跨学科研究机会,”郑说。
AI Economist 团队不断与经济学家对话,并将这项工作介绍给科学界。 郑说,该团队正在开展多个项目,他们将能够在不久的将来分享更多相关信息。 他总结说,通过一些教育让人们熟悉这种方法和更加用户友好的 UI/UX 可能会有很长的路要走。