次回の更新記事:推論時のトークン数を80%以上削減しながら出力精度を…(公開予定日:2025年03月17日)

技術

OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化
数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』
キーボード打鍵音から入力文字を特定するハッキング技術の精度が高いことが判明
ロボットが「初めて見る環境」で「初めて聞く指示」に対しても行動をとれるようにする
大規模言語モデルが音声をダイレクトに理解する能力を与える Metaとケンブリッジ大
未知の物体を認識し、それを既知の物体と区別する新たな研究 BMWやGoogleなど
人間の脳活動から音楽を再構築する:Brain2Musicの紹介
MRIデータから音声を合成する手法 UCバークレーなどが開発
大規模言語モデルを化学ツールで拡張:新フレームワーク「ChemCrow」の登場
SAMを利用した新たな異常検知フレームワーク「SAA+」の紹介

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP