
放大/啊,简单的按钮! (信用:Aurich Lawson | Getty Images)
这是我们探索“无代码”机器学习的第二集。 在我们的第一篇文章中,我们列出了我们的问题集并讨论了我们将使用的数据来测试为业务分析师设计的高度自动化的机器学习工具是否可以返回具有成本效益的结果,其质量接近涉及更多人的代码密集型方法的质量。 – 驱动的数据科学。
如果你还没有读过那篇文章,你应该回去至少略读一下。如果你准备好了,让我们回顾一下在“正常”(即代码密集型)机器学习条件下我们将如何处理心脏病发作数据,然后将其全部扔掉并点击“简单”按钮。
正如我们之前所讨论的,我们正在处理一组心脏健康数据,这些数据来自克利夫兰诊所研究所和布达佩斯匈牙利心脏病研究所(以及其他出于质量原因我们已丢弃其数据的地方)的研究。我们在 GitHub 上创建的存储库中提供了所有这些数据,但其原始形式是加州大学欧文分校为机器学习项目维护的数据存储库的一部分。我们使用了两个版本的数据集:一个更小、更完整的数据集包含来自克利夫兰诊所的 303 名患者记录,以及一个更大的(597 名患者)数据库,其中包含匈牙利研究所的数据,但缺少来自较小的集合。