次回の更新記事:LLMを活用した採用フィードバックの効率化(公開予定日:2025年07月14日)

技術

人物の「不自然さ」を極限まで取り除いて超リアルな画像を生成する『HyperHuman(ハイパーヒューマン)』
画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い
OpenAIは、DALL·E 3の論文を通して「画像生成AIの安全性は前進した」ことを報告しています。
「1枚絵の3D化」が非常に手軽な操作で実行できる軽快なツール『DreamGaussian』とWebでの使い方
GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表
OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化
数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』
キーボード打鍵音から入力文字を特定するハッキング技術の精度が高いことが判明
ロボットが「初めて見る環境」で「初めて聞く指示」に対しても行動をとれるようにする
大規模言語モデルが音声をダイレクトに理解する能力を与える Metaとケンブリッジ大
未知の物体を認識し、それを既知の物体と区別する新たな研究 BMWやGoogleなど
人間の脳活動から音楽を再構築する:Brain2Musicの紹介
MRIデータから音声を合成する手法 UCバークレーなどが開発
大規模言語モデルを化学ツールで拡張:新フレームワーク「ChemCrow」の登場
SAMを利用した新たな異常検知フレームワーク「SAA+」の紹介

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP