机器学习的2个基本疑问

如何判断一件事是可以通过机器学习做到的？如何训练调参炼丹的基本素养？

1.如何定义一件事情是可以通过机器学习做到的？

比如html筛选版权问题
比如特定领域+高分辨率+高准确率的图片风格归类问题

2.调参炼丹

数据与分布：数学发现的魅力
重复试验：数据积累、发现、测试验证……的基本素养
对话：指点的价值，寻找方向感
论文：扩大视野，寻找不足
视频：工程经验的分享，生活的乐趣 
套壳vs自主：模仿、理解基本概念、自主演化

在google上搜这个问题，看到一篇文章，点进去被封面图吸引到了。这篇文章讲了机器学习的来源、概念解释、以及工程化中可能遇到的挑战。对来源来说，一张图表达了从数据到影响力的转化；概念解释则通过两个典型的算法：Word2Vec的Skip-gram和CBOW，机器学习的是向量之间的某种函数映射，是中间的向量化的临时结果；在工程化的过程中，期望通用的机器学习方案是不现实的，那会趋于平庸，而工程的工作量更多集中在前面的划分问题域和构造特征集；最后，单纯的构造数据-> 模型并不困难，实现一个可以根据调用和使用者逐步优化和演进的SAAS则会变得很困难。

当我第一次看到这个图的时候，就被吸引了，因为这么简单的6个小框框就诠释出了数据分析，机器学习，以及知识和信息的本质，那就是：
数据经过处理和加工，变成了信息。
信息之间产生了联系，形成了知识。
通过现有知识，发现了一些知识之间的新关系，于是形成了洞见。
把一系列洞见串联起来，形成了智慧。
向外传播智慧，形成了影响力。
要知道，现在大家所使用的一切数据分析技术，无论是大数据还是机器学习，都是在实现这里面的某一个环节，而最终的环节，就是机器学习最终的目标，我们不是希望机器学习学到知识，这是一个手段，我们希望计算机可以具有智慧，而智慧又是无法量化的，似乎目前只能从大量的知识中去学习，至少人类就是这样过来的。

不要指望可以用较低的成本瞬间获得机器学习带来的福利。当我们利用它的时候就需要明白它的合适的场景和合理的使用方法。

复杂的地方在于划分问题域，大了来说，分类和回归占据半壁江山，但是对于分类来说，如何设定特定领域下的可扩展的类别，是一门独立的复杂学科。
其次构造特征集的时候需要考虑的不单单是相关的数据采集，同时还有对应的特征关联分布等分析来确定合适的算法和效果，这样可以在前期达到事半功倍的效果。
机器学习模型更大的工作是在前半截而非训练的过程，训练过程通常等价于一般业务系统启动服务的过程，而前边的定义和划分则应该被归入机器学习story编码的一个部分。
实现一个SAAS不会太难，实现一个可以根据调用和使用者逐步优化和演进的SAAS则会变得很困难。
因此在构建SAAS的时候不但需要基于可以弹性扩展的系统实现对应的服务，同时需要基于不同的库和服务来作出不一样的实现。另外在线上需要有足够多的反馈机制，用来作为核心的校验和持续训练环节。
文章与图片来源：https://www.baifachuan.com/posts/da70b21c.html