很多人的工作就是查看大量的内容,然后打上标签,例如标注出一张图片上是否有猫。一旦有足够的照片被标记为“猫”或者“非猫”,就形成了一个数据集,可以用来训练模型识猫。更准确一点说,是让模型以一定的置信水平预测一张照片中是否有猫。
很简单,是吧?
真正的挑战在于,让模型预测对于用户来说非常主观的东西,例如是否对一篇文章感兴趣或者提供电子邮件的回复建议。
而且模型训练需要很长的时间,获得一个完全标记的数据集可能非常昂贵,而错误的标签还会给产品带来巨大的负面影响。
该怎么办?
可以先从合理的假设开始,并且对这些假设进行广泛的讨论。
这些假设通常采用这样的形式:“对于在(某)情境下的(某)用户,我们假设用户更喜欢(这个)而不是(这个)”。然后尽快把这些假设放到原型里,收集反馈进行迭代。
建议为你的机器学习找一个外援,例如在相关领域有深入研究的专家。
接下来,你会发现哪些假设看起来更加“真实”。但是在大规模收集数据和打标签之前,最好让专家挑选一些真实用户数据进行关键的第二轮验证。
用户应该测试一个高保真的原型,感觉到在与一个AI进行交互。
通过这些实操验证,可以让专家创建一个AI功能的示例组合。然后把这些案例作为后续收集的路线图,进而生成一套强大的训练数据集,以及大规模的标签协议框架。
7.扩展思维,发挥创意
作为一个产品经理,可能都会得到一些令人抓狂的微调反馈,可能都有一些你再也不想打交道的工程师。
具体到机器学习这件事上,有一些微小的建议供参考。
对于一个机器学习的产品经理来说,规范太多可能会导致无意的锚定,进而束缚了工程师的创造力。要相信他们的直觉,鼓励他们不断试验,即便整个框架还不完整也可以开始用户测试。
机器学习是一个更具创造力和表现力的工程。但训练一个模型可能很慢,可视化的工具还不是很好,所以工程师在最终调整算法时,经常需要靠想象力……
所以产品经理需要一直帮助工程师走在以用户为中心的道路上。
要用不同的方法给工程师以启迪,要温和的给出批评意见,要帮助他们深入的理解产品原理和目标。
工程师越早展开迭代,机器学习体系的鲁棒性可能越好,你就越有可能推出具有影响力的AI产品。
结论
以上是我们在Google内部强调的七个要点。希望对于正在或者想要开发机器学习产品的你有所帮助。随着机器学习开始驱动越来越多的产品,我们更应该以人为中心,为人们提供独特、有价值、极好的产品体验。