能用AI破译婴儿啼哭吗?
哭闹是婴儿表达情感和寻求帮助的主要方式,也是一种健康的表现。这就像告诉父母,“我需要你!”如果家长能够了解宝宝的需求,及时解决,对宝宝的生长发育是非常有利的。
现实中的年轻父母有没有「帮忙破译哭声」的需求?我翻遍了各种育儿社区,剪了几张图,你可以设身处地,自己体会一下。
首先,一个简单的调查
1.1用户调查
为了快速获得更多信息,牺牲准确性,进行了一轮包含四个选择题的迷你调查。目标人群是照顾过0-6个月宝宝的父母,没有要求“6个月中期”的苛刻条件。* * * 176样本收集如下:
a)父母对哭闹原因判断的准确性
全对(22%):这些家长有绝对的自信,几乎不需要工具。通过采访,我了解到他们之所以能判断准确,主要有两个原因。有经验+宝宝让人省心。给他们一个标签,叫“有答案”,后面会用到。
大部分是正确的(64.2%):大部分父母都是这种状态,打动他们需要一定的条件。优秀的用户体验是前提,同时还要帮助他们提高诊断效率和准确率。给他们贴上一个标签,叫“永远找对类型”。
很难找(13.5%):有那么多父母在宝宝哭闹的时候不知所措,这里有大把的机会可以探索。想想吧。中国人口基数这么大,13.5%这个数字真的很小吗?他们的标签是“不解”。
b)哭的常见原因有哪些?
覆盖面:95%的案例已被调查中设定的九大原因覆盖,前六大原因是饥渴、尿不湿、搂抱、嗜睡、疾病和疼痛。另有5%的家长选择了其他原因,包括受到惊吓和被挤压,这可以通过渐进式调查来补充。
意识:家长认定的哭闹原因可能不符合真实情况。比如只有17%的家长勾选了“本能运动”这个选项。科学研究表明,任何一个宝宝都曾因为“本能的动作”而哭过,这对宝宝的身心发展是有帮助的,对以后的语言发展也是一种启蒙。“本能运动”和“求妈咪抱抱”的解决方法类似但不完全相同。一个是要求逗逗,另一个是要求拥抱。两者的声学特征都是充满节奏的,前者响亮,后者平和。由此可见,帮助家长提高育儿意识可能也是AI解码的可挖掘点之一。
c)家长对“解密哭闹APP”的兴趣
这个问题的条件是APP是免费的,样本的反馈完全超出预期:只有6%的家长表示不会使用,53%的家长愿意尝试,41%的家长表示一定会使用。
对比几种类型的父母:不仅“迷茫”,而且“自信”“一直在寻找合适的类型”对这项技术有着浓厚的兴趣。是的,技术不就是帮人偷懒吗?如果能省点力气,为什么要绕弯呢?这里的“免费”可能有一定的杀伤力,父母的现实需求+对新技术的好奇心也起到了强大的作用。
由于研究维度有限,粒度细,样本数量少,无法得出更有价值的结论。但是可以看到一定的需求和机会,继续寻找有这个势头的同类竞品。
1.2竞争产品调查
a)模拟声音类别
通过模拟胎儿在母亲体内听到的声音来安慰宝宝。这类产品的主要作用是平复心情,但解决不了“生病”、“疼痛”、“尿不湿”等情况,治标不治本。
b)婴儿语言翻译器
美国、中国、台湾省、西班牙和日本的团队都做过相关研究。程序可以通过分析哭闹给出胃痛、尿不湿、嗜睡等原因。每个团队都声称可以覆盖95%以上的婴儿哭的原因,准确率比人高三倍,但是每个团队找到的原因都不一致。目前,这种产品没有在中国大陆销售,也没有应用程序。有独立的设备。有兴趣可以搜索“贝可莱婴儿哭声分析仪”。这类产品已经是AI辩论的前辈了,准确性、易用性、市场化都有提升空间。
人工智能
2016年,日本First-Ascent公司声称推出了一项基于人工智能的技术,可以根据婴儿的哭声分析原因,并计划将这项技术加入到APP中。这篇文章写到90%才看到这个消息。当我继续查找的时候,发现它没有实验数据,没有可用的产品,也没有本地化。
更有趣的是,许多竞争产品提出了技术解决方案的想法,因为程的父亲发现很难照顾婴儿。下面从科学合理性、工具定位、语音识别、数据准备、学习模型这几个方面来简单分析一下。
2.科学理性
抛开竞品的干扰,考虑一下:哭闹特征和哭闹原因的相关性可靠吗?如果它们之间真的存在相关性,是否意味着无论映射逻辑有多复杂,我们都有可能用机器学习来拟合预测模型?
2.1经验和常识
宝宝树等育儿社区列举了大量听声音解决哭闹的例子,百度的经验更是详细列举了15种哭闹的特点、原因及解决方法。有经验的岳跃可以通过哭闹快速搞定宝宝,说明通过声音特征判断很可能是可以的。
2.2专业研究
学术界对婴儿啼哭的意义有很多研究,最先进的甚至声称可以诊断婴儿是否患有自闭症、脑损伤、神经系统疾病以及与早产有关的疾病。我觉得这个方向还是很有前途的,值得深入研究。如果有兴趣,可以搜索几个相关链接:
美国婴儿哭闹诊断仪可检测神经系统疾病。
婴儿的哭声代表五种情绪
婴儿啼哭隐藏了疾病的线索
哭声分析仪,早期发现婴儿发育障碍
2.3综合判断
哭泣并不是划分病因的唯一信号。我们可以先用声音特征作为主要线索来预测一波,再用其他方法辅助判断。依靠AI解决100%的问题,要求不高。只要能解决其中的一部分,提高求解效率,就能发挥应用价值。
这类似于智能手环的绿灯测心率原理。光电法的准确性不如心电信号法(医用级),仅通过心率很难预测心脑血管疾病。但手环的天然优势是佩戴方便+实时监控+主动提醒。如果用户根据经验、血压等指标进行综合判断,就有可能改善生活习惯,预测风险。这类产品符合早预防早治疗的理念,往往能获得良好的市场反馈。
按照综合按的思路,整理了下表,训练模型是预测突出的“哭的原因”。
根据查阅的资料,图中九种哭的原因分类可能不太准确,但至少人类可以感知到细微的差别。
上图描述了一个模拟场景:家长先通过APP锁定病因范围,然后根据APP的提示观察宝宝并给出判断。像中耳炎这种特殊情况,家长操作过一次,基本记得鉴别方法。这就引出了我对工具的定位:通过正确的判断和有效的提示,帮助家长尽快掌握宝宝阅读和写作的技巧,写完了不粘就走。
3、刀具定位
3.1小工具
“解密哭”还没到产品设计阶段,更像是一个辅助工具,而不是产品。目前各大育儿应用已经相当成熟,提供了丰富的内容和服务,但有些服务很少使用。如果把“解码哭”也整合进去,也不会太辛苦,可能会锦上添花。比如这些都是很好的入口,宝宝哭闹的频率远高于打疫苗和起名吧?
3.2目标人群
没有经验的父母在宝宝0-6个月哭闹时间长的时候会派上用场。6个月后,宝宝适应了周围的环境,模型预测逐渐失效。这时,父母已经积累了足够的经验。西方提倡父母多和宝宝沟通,学会读心术,这更像是玄学。“读”的能力是父母和孩子之间的纽带,会影响双方一生的情感交流。所以不鼓励家长依赖工具,也要帮助家长掌握宝宝的读写技能。
3.3可扩展性
工具虽小,但也有一点想象的空间。比如给宝宝做一个哭闹档案,记录每一次“哭闹+原因+解决方法”。等宝宝长大了,看到他的成长日志,就会明白父母把自己拉扯大的不容易。
3.4产品形式
采访几个表示不想用的家长,问他们为什么不想用这样的APP。
一位家长表示没有时间,想通过交流自己的感受来了解宝宝。另一位家长表示,想不到用APP。他家宝宝很不好意思,好久没哭了。这涉及到用户的观念、习惯、个体差异,真的不是三言两语能说清楚的。
这里我只举一个例子:小米的小蚁智能摄像头已经可以监测宝宝的哭声,提醒家长,如果加上分析原因,给出建议的功能,就不会突兀,反而会很人性化,很精准。总之,产品形态不限于APP。只要内在逻辑科学合理,一定有一些交互方案能够受到用户的欢迎。
4.语音识别
考虑到成本等因素,在APP中插入小工具非常适合快速打样和试错。这属于近场语音识别,信噪比高,但是环境中还是有噪声的。识别过程大致分为以下几个步骤:
4.1降噪
对采集的声波信号做降噪处理,消除父母谈话、物体碰撞、气流等噪音。目前市面上已经有成功监测婴儿啼哭的产品,如智能摄像头、三星S5手机内置APP等。,而且鉴定过程也不会很难。还有一些相关专利可以参考,网上搜了很多。
4.2过滤
要区分目标宝宝和其他宝宝的信号,需要收集目标宝宝的数据,单独创建学习模型。
4.4特征
从信号中提取声学特征供机器学习,留给神奇的算法团队。
5.数据准备
5.1实例设置
每个例子由两部分组成:哭音+结果识别。监督学习的结果识别是一个闭集,训练数据类似下图。
5.2样品标准
声音信号:记录的声音强度大于40分贝,持续时间为10-15秒。录制的声音只包含1个婴儿的哭声。
结果鉴定:听到哭闹声后,家长采取行动,采集员根据有效行动推断出1哭闹原因并记录。
有效行动:父母采取行动后,宝宝在1分钟内停止哭闹。或者哭的原因已经找到,需要一段时间解决(比如病不能很快治好,医生可以开诊断证明)。
宝宝年龄:0-6个月
5.3样品收集
采集区域:婴儿密集区,即儿科医院、妇幼保健院、月子中心、儿童福利院等。
采集人员:尽量专业。如果现场记录了错误的鉴定,以后要改正就非常困难了。
考虑体验:收集过程人性化,不诱导宝宝哭闹,不影响家庭和宝宝的正常生活。
其他参考:台湾省的一个团队号称已经成功采集了654.38+万+的相似样本,可以借鉴相似的方法或者合作。
6.学习模型
我们应该准确地预测目标集中的分类,并采用监督学习。这里不谈训练模式和评价指标,只问两个简单的问题:
6.1模型应该输出“哭的原因”还是“解决方法”?
按照通常的思维,用A方案,但直觉告诉我B方案可能可行。B的思路是先预测新数据的解,再根据预期的动作推断哭的原因。
现实中,“哭理”和“解决”是多对多的复合因果关系。如果直接拿哭+有效解来拟合模型,最后的效果可能是一样的,甚至更好。
PS:无论A还是B,都只是型号设计的问题,最终用户体验都是一样的。
6.2个性化模型
训练集和实际数据不一样,可能会有很多宝宝同时哭,所以需要为每个宝宝建立个性化的模型。每次家长修改都是训练模型,帮助提高预测效果。
以上是本文的主要内容,抛一个场景的可能性。可以衍生出很多类似的场景。未来对声音的科学研究不会止于婴儿,宠物和野生动物可能会有进步。也许有一天我们可以通过AI翻译机与更聪明的动物交流,比如猩猩、海豚和大象。
写在最后
作者向很多人提到了这个想法,感谢朋友们的支持和建议。写之前犹豫了一下,因为作者没有照顾好宝宝,无法亲身体会那种感觉。后来AI产品大本营负责人@黄照鼓励我试着写一个小故事,于是我决定试一试。
这也促使我反复思考一个问题:一个非专业背景,零AI经验的PM如何有出路?首先,敢于思考,这是第一步!
挖需求,挖场景,挖机会!模拟场景做研究,发现问题想办法,而不是跳到工程师的轨道上去拼算法。等我们上了船,在实战中学习理解算法,会事半功倍。
这是一个需要想象力的时代,用AI或许可以解决过去从未解决过的问题。在大数据没有出现的时代,没有人会想到啤酒和尿不湿之间有着惊人的秘密。
有太多的场景让我们去发现。限制我们想象力的不是贫穷,而是勇气。
不平凡的世界观往往是危险远而人难及,有志者事竟成。任何问题都一定有解决的办法,我们的任务就是找到它,不管概率有多渺茫!