実務レベルで音声タイピングが普及していますが、同時に「音を出さない入力」への需要が次のステップとして強まっています。たとえば公共空間、会議中、騒音環境など。
この「音を出さない入力」インタフェースの実現は、LLMの能力が向上するにしたがって現実的になりつつあります。
音声を使う代わりに、脳活動、筋肉の電気信号、舌や口の動きなど、発話の途中段階に現れる生体信号から言語を推定する仕組みです。
「ほんとうにそんなことが可能か?」と思うかもしれませんが、既に不完全な生体信号からでも文脈を補いながら文章を復元できるようになってきています。
現在は、センサー技術と機械学習手法の両方が進展し、それぞれの弱点を補い合いながら、この分野の実用化可能性を押し広げています。
下記は、こうした技術の現状を整理したレビュー論文です。