文献阅读 | mEBAL: A Multimodal Database for Eye Blink Detection and Atention Level Estimation

背景

  • 眨眼频率与认知活动有关
  • 自动检测眨眼可以评估注意力等级
  • 现有数据库样本太少,且是单模态

方法

总述

  • 使用EEG Band 获得 注意力等级(0-100) 和 blink strenth(1-255)
  • 红外和普通相机捕捉面部表情 face gesture
  • 38 名被试在完成不同的在线学习任务是采集了他们的数据.
  • 从数据中提取了6000个样本呢,分为两类 (3000 blink samples 和 3000 non-blink samples)
  • 两种分析
    • CNN 基于图像识别眨眼
      1. 人脸识别
      2. 眼部区域识别
      3. 使用CNN检测眼动图像中的眨眼
    • 眨眼频率与注意力等级的关系
      1.从EEG band里提取blink strenth
      2.手动确定是否是眨眼
      3.绘图分析

通过图像检测眨眼

  • 使用CNN构建网络:
    1个输入层 + 3个卷积层(激活函数RELU) + 3个池化层 +1个dense layer(激活函数:RELU) + 1个输出层(激活函数Sigmoid)

    • dropout(0.5)
    • batch size = 50
    • adam 优化器 学习率 0.001
  • 训练集:50*50的裁剪后的单眼图片,已被标记过
  • 测试集:HUST-LEBW dataset
  • 结果:
    CNN_result

注意力与眨眼的关系

  • 从EEG band里提取的attention level 视为真实注意力
  • 从EEG band里经过手工筛选过的眨眼作为真实眨眼,统计每分钟的眨眼频率,滑窗为5秒(5秒内的次数/每分钟的总次数),然后使用min-max归一化,将值缩小到0-1
  • 使用CNN检测出来的眨眼作为estimate blink,统计每分钟的眨眼频率,滑窗为5秒(5秒内的次数/每分钟的总次数),然后使用min-max归一化,将值缩小到0-1
  • 绘图分析
    attention_result

数据库

图片数据

frames camera eye total_samples total_frames(images)
blink 21 3(1RGB + 2NIR) 2 3000 3000x21x3x2=37800
non-blink 21 3(1RGB + 2NIR) 2 3000 3000x21x3x2=37800

图片来自于3个相机拍摄的视频,帧速率为30Hz,由于non-blink图片数远大于blink,因此non-blink的3000 samples 是经过随机采样得到的
– 数据包括:
1.完整的图片(entire face iomage)
2.眼边界盒(eye bounding box)
3.裁剪后的眼部图片(cropped eye image)

脑电数据

频带 频率范围 提取时间间隔
delta 0.5-2.75Hz 1s
theta 3.5-6.75Hz 1s
alpha 7.5-11.75Hz 1s
beta 13-29.75Hz /? 1s
gamma 31-49.75Hz /? 1s

数据采集自NeuroSky headset,该作者明显不懂脑电,在文中混淆了采样率和通道的概念,报告的脑电采样率为1Hz,实际应为每隔一秒提取一次Bandpower,报告的通道为5 channels,实际是5个频段.而且没有报告五个频段的频率范围,在neurosky官方文档里gamma频段和beta频段都有三个频率范围(低、中、高)
EEG 频段信息-Neurosky

图片标记

  • 眨眼
    从EEG band SDK中直接导出blink strenth,和 attention level
    EEG指标描述-Neurosky
    如果 blink 有效,从图片数据中取 前10帧+本帧+后10帧 共21帧 标记被一个眨眼事件

  • 非眨眼
    其他的帧,每21帧作为一个sample

发表评论