近距离图片识别并播报
这个项目可以识别任意图片,并通过语音播报出来。
这个项目的原理是:首先使用摄像头拍摄需要识别的图片组,然后将这张图片组传给模型进行训练。
这样再次遇到这张图片时,模型就可以识别出这张图片。最后将识别结果通过语音播报出来。
在此基础上加入超声波测距,只在近距离才调用摄像头,避免摄像头长时间工作发烫导致报废。
得分 |
---|
通过 AI-Local 模型训练将摄像头识别到的不同的医疗垃圾进行标注(视觉识别素材由组委会提供),并将相应物品名称反馈在液晶显示屏上,目标物品置信度为 93%以上(高于 93%且分类正确得 5 分),非目标物品置信度为 85%以下(低于 85%得 5 分)。 |
语音合成技术完成不同物品的播报反馈,成功一类得 4 分(举例:此物为针头、是损伤性废物,应放入专用的针具容器中) |
识别到的物品名称和准确率反馈在显示屏上,不同物品的识别准确率在 90%以上。得 2 分。 |
程序分:初始化 camera 镜像、LCD 显示屏、音频播放器等,体现录入原始数据与训练数据的过程,存储模型路径、通信频率、概率阈值、模型学习框架选择均无误。得 2 分。 |
图片准备
我们以如下四张图片为例。将其逐一打印出来:
![]() | ![]() |
---|---|
![]() | ![]() |
音频准备
设备不支持实施生成语音文件,因此在这里我们需要自己提前录制或合成好需要播报的音频。
可以使用在线工具或者软件来生成音频文件。譬如:https://products.aspose.app/audio/zh-cn/text-to-speech
合成好的音频按照物品名命名,放在 SD 卡根目录下,将 SD 卡插入设备。
例如你的物品名为zhi xing
(直行的拼音),那么你的音频文件应该命名为zhi xing.wav
。
下方代码中calss= ['zhi xing', 'yin hang', 'jin xing', 'mang dao']
这行就表示了你的物品名分别为
zhi xing
(直行的拼音)yin hang
(银行的拼音)jin xing
(禁行的拼音)mang dao
(盲道的拼音)
物品名的命名仅供参考,要点是与音频文件的名称保持一致。
传感器连接
超声波T口:D0
超声波E口:D1
SD卡:SD卡槽
语音播报:拓展板自带