次回の更新記事:推論時のトークン数を80%以上削減しながら出力精度を…(公開予定日:2025年03月17日)

技術

Metaのリアルタイム多言語間翻訳システム『Seamless(シームレス)』は話し方のトーンや抑揚も反映
キャラを一貫して再現する画像生成メソッド『The Chosen One』
自分の話し声を別の誰かの声にリアルタイム変換するモデルが、一般消費者向けCPUで動かせる軽さで登場
DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか?OpenAIが論文で発表
「DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか?」に対するOpenAIの論文が発表されました。
人物の「不自然さ」を極限まで取り除いて超リアルな画像を生成する『HyperHuman(ハイパーヒューマン)』
画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い
OpenAIは、DALL·E 3の論文を通して「画像生成AIの安全性は前進した」ことを報告しています。
「1枚絵の3D化」が非常に手軽な操作で実行できる軽快なツール『DreamGaussian』とWebでの使い方
GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP