OpenAI:経済研究交流を開始
OpenAIが2026年6月8日、AIの雇用・生産性・経済への影響を研究する「経済研究交流」を立ち上げ、研究プロジェクトの応募受付を開始した。主席エコノミストR...
GoogleとUniversity of Waterlooが連携するFutures Labで、学生が手話チューターなど実用志向のAI試作品を開発した。 教育と仕...
物理学者がClaude Codeを12日57セッション監督し、AIが全テスト通過の補正を1度コミットしながら理論上どの量にも対応しない「つじつま合わせ」を生んだ...
Sakana AIがネットワークを1ブロックずつ独立学習する手法DiffusionBlocksをICLR 2026で発表。学習に必要なメモリを単一ブロック分まで...
ブラウザ上で数百並列に動くモバイルGUI環境MobileGymが公開。Qwen3-VL-4B-InstructにGRPO適用で256タスクテストが+12.8pt...
arXiv論文がエージェントAIの次のボトルネックを「モデル」ではなく「ハーネス(実行層)」と提起。基盤モデル・メモリ・コンテキスト・スキルルーティング・オーケ...
Hugging FaceがAIエージェント関連用語の定義を整理したブログを公開。harness、scaffoldなど混同されやすい概念を明確化。エージェント開発...
テキスト指示からメタバース向けアバターを自動組成するフレームワーク「CMAG」がarXivで公開された。3Dコンセプトスキャフォールドとエージェント型VLMの検...
参照画像1枚からゼロショットでアニメキャラを一貫生成する軽量アダプタが登場。Stable Diffusionの既存ワークフローと完全互換で、被写体ごとのファイン...
モデル生成スキルの再利用は平均的には有益だが、無視できない負の転移が発生する。抽出器とターゲットエージェントの強弱は独立しており、モデル規模とは無関係。論文は改...
シャノンの通信路容量理論をLLMに適用した新スケーリング則がICML 2026に採択。モデルパラメータを帯域幅、訓練トークンを信号電力に対応付け、SNR維持の重...
arXivで公開された「SkillOpt」は、エージェントのスキル文書をテキスト空間で最適化する仕組み。GPT-5.5でCodex経由+24.8ポイントなど、6...
42名の研究者がコードをAIエージェントの実行基盤として体系化したサーベイ論文を公開。インターフェース・メカニズム・スケーリングの3層構造で整理し、コーディング...
Preferred NetworksのPFN Blog Vol.68で、物理学者がClaudeを共同執筆者として使い理論物理学の論文を書き上げた事例が紹介された...
Andrej Karpathyが公開したautoresearchが、自然言語のMarkdown指示書だけで一晩に約70回の実験を自律実行。LLM改善手法を16種...
Microsoft AzureがAI時代のデータセンター電力供給設計を再定義する研究を発表。2027年までにラック電力密度が1MWに達する見通しの中、「設置メガ...
IBM研究所がAIエージェントを統一プロトコルで評価するオープンリーダーボードを公開。失敗実行は成功実行より20〜54%コスト高という運用知見を提示。同じモデル...
追加学習なしでGUIグラウンディングの精度を改善する手法BAMIがarXivに公開された。TianXi-Action-7Bに適用するとScreenSpot-Pr...
UniPoolは全レイヤーで単一の専門家プールを共有するMoE新設計。バニラMoE比で検証損失を最大0.0386改善し、専門家パラメータを41.6〜66.7%に...
ActCamは追加学習なしで既存の画像→動画拡散モデルにカメラ軌跡とキャラ動作の同時制御を可能にするゼロショット手法。2段階のコンディショニングスケジュールで大...
Grokと人間の数学者が共同で5つの不等式に関する新しい成果を得て、arXivに論文を投稿した。すべての発見は著者らが独立に検証済み。AIが数学研究で「共同発見...
言語モデルの隠れ層に線形プローブを適用すると、文字列確率より高精度で文法性を判定できた。 英語で訓練したプローブが他言語にも汎化し、プローブスコアと文字列確率の...
DiTベースの画像生成で、エンコーダとデノイザー双方に発生する外れ値トークンが品質劣化の原因となることを確認。単純なマスクでは改善せず、局所パッチの意味破壊が問...
OpenAIが大規模AI訓練向けネットワークプロトコル「MRC(Multipath Reliable Connection)」を公開。OCP(Open Comp...
HeyGenが動画参照型トーキングアバター生成技術TAVRを論文公開し、本番サービスAvatar-Vとして既にデプロイ済み。静止画ではなく動画を参照入力とするこ...
拡散モデル蒸留による新手法AsymK-Talkerが登場。リアルタイム推論と長時間生成の破綻抑制を両立した。ビデオ会議やアバター配信の実装選択肢が広がる。
Autodesk Researchらが生成3Dキャラアニメの比較ツール「AnimationDiff」を発表。オーバーレイ/並列表示切替とTemporal Len...
学術チームがSFTのみ・訓練データ10,600件で検索エージェントの新SOTAを達成。4ベンチマークで産業界の重厚パイプライン(CPT+SFT+RL)製Tong...
放射線領域のLLM評価で、精度94%でも高リスクエラーが残ることが判明。RAGや長文脈では安全性ギャップを埋められない。モデル規模拡大だけでは医療AIは安全にな...
PALACEは勾配学習を使わず閉形式で分類と予測認証を両立する新手法。Orbit5kで91.3%、COX2・MUTAGで図ベース手法のトップ。ドメイン8倍拡大で...
複合材料力学向けのマルチフィデリティ代理モデル6系統を体系整理したレビュー論文がarXivに公開。順方向予測・逆最適化・ワークフロー統合の3役割で手法選択の指針...
Eurostatの NUTS2地域データに5つの異常検知手法を適用し、3手法以上で異常と判定された地域を『構造的異常』として特定する枠組みが公開。ブリュッセル・...
投機デコードの推測長γを動的選択するSpecKVが、固定γ=4比で期待トークン数56.0%改善を達成。判断オーバーヘッドは0.34msと軽量で、FP16/INT...
DeepSeek-R1の推論能力をPhi3とQwen-CoderにLoRAで蒸留し、クロス言語コードクローン検出を小型オープンソースモデルで実現。応答安定化の3...
SHAPでRLのアルゴリズム・ハイパーパラメータが汎化ギャップに与える寄与を定量分解する枠組みが提案された。複数のロボット環境で一貫した設定影響パターンを確認し...
対照学習のデータポイズニング型バックドア攻撃を、データセット著作権保護の電子透かしに転用する研究がarXivに公開。既存攻撃の4つの限界を体系評価し、トリガーサ...
arXivに連立系のKoopman演算子学習手法が公開された。各サブシステムの支配微分方程式の情報を学習に組み込み、データ不足下でのEDMDの不安定性を補う。連...
LVLMは生成が長くなるほど画像への注意が薄れる「視覚信号希薄化」を抱える。提案手法PVMはFFNと並列に軽量モジュールを挿し、距離に依存しない視覚参照経路を作...
LLMは5ステップで61%だった正答率が95ステップで20%まで低下。推論ベンチマークの高スコアが手順の忠実な実行を保証しないことが14モデル・55データセット...
HyCOPは移流・拡散・境界処理などのモジュールを組み合わせた短いプログラムとしてPDE解演算子を学習する新フレームワーク。モノリシックなニューラル演算子に対し...
1,000台の合成コンピュータ環境でAIエージェントが約1か月分の業務を自律実行するシミュレーション手法が登場。1回あたり8時間超・2,000ターン以上の長期タ...
LLMが強化学習による能力引き出しに戦略的に抵抗する「探索ハッキング」が実証された。バイオセキュリティやAI R&D環境で、関連タスクの性能を維持したまま選択的...
ナッシュ均衡では防げない連合による協調逸脱へのインセンティブを最小化する新しい均衡概念が提案された。平均利得・最大利得目的では存在が保証され、計算複雑性の下界に...
arXivで発表されたPROMISE-ADは、軽度認知障害からアルツハイマー型認知症への変換をC-index 0.894・5年AUROC 0.997で予測する生...
LLMが生成する強化学習の報酬は、そのまま使うと不安定になる課題がある。RHyVEは報酬の「生成」と「デプロイ」を分離し、ポリシー能力と学習フェーズに応じて検証...
PLOSとDataSeerがLLMベースの研究データ再利用指標を開発し、再利用率43%を計測。従来の書誌計量手法の推定値を上回る結果となった。オープンサイエンス...
arXivで公開されたS2T手法が、1.5BのSLMだけで32BのLLM選択を95%再現。単一パスのgreedy decodingを平均24.1%改善し、8パス...
arXivに凸性保証ニューラルネット『HyCNNs』の論文が公開された。MaxoutとICNNsを組み合わせ、二次関数近似で指数的に少ないパラメータを実現する。...
拡散型LLM(dLLM)を異なるアーキテクチャの小型モデルへ蒸留する初のフレームワーク「TIDE」が公開された。8B密結合/16B MoEの教師から0.6B学生...
染色体核型解析AI「KAYRA」がarXivで発表され、セグメンテーション精度98.91%を達成。同一コンテナでクラウド・オンプレミス両対応し、患者データ院外送...
エージェント評価HALは9モデル×9ベンチマークで約4万ドルを消費し、評価コストが訓練コストを超える事例が相次いでいる。Claude Opus 4.1とGemi...
ITF(Identity Teacher Forcing)が最適化幾何を歪めることが理論的に示された。Lorenz-63実験で証拠ファインチューニングが力学的Q...
WildChat-4.8Mから抽出した2.7万件の会話ログ分析で、流暢ユーザーは初心者より失敗が多い一方、複雑タスクでの成功率も高いことが判明。初心者は成功に見...
Tsallis q-対数を用いた損失族J_Qが、RLVRと潜在軌跡の対数周辺尤度を連続的に補間する統一フレームワークとして提案された。q=0.75設定のGARL...
マルチエージェントを潜在空間の再帰計算として統合する新フレームワーク「RecursiveMAS」がarXivで公開された。9ベンチマークで平均精度8.3%向上、...
データ可視化AIエージェントの実務能力を測るベンチマーク「DV-World」が公開された。260タスクを3領域で評価し、最先端モデルでも総合50%未満にとどまる...
arXivで公開された研究で、Gemini 2.5 FlashがTF-IDFやDeBERTa-v3を上回る栄養推定精度を達成。 EU規制1169/2011の許容...
UAV・宇宙機・地上ロボット向けの自律スタックを模したオープンソースのデジタルツインが公開された。スプーフィングや敵対的MLなど5種類の攻撃シナリオを単一基盤で...
Boston UniversityのDEPEND Labが、仕様誘導型強化学習(Specification-Guided RL)の汎化性能を測るベンチマーク『S...
arXivで推論学習の新研究『Learning to Think from Multiple Thinkers』が公開された。複数の思考者から学習するアプローチ...
arXivで多クラス学習とリスト学習のサンプル複雑度に関する論文が公開された。学習理論における最適レートを論じる一次ソースで、分類系モデルの理論的基盤に関わる。...
学生の提出コードから構造的な知識コンポーネント(KC)パターンをAST解析で抽出し、生成モデルの条件として与えることで個別化されたワーク例を自動生成する手法がa...
arXivに多スケール動力学領域向けの新しい勾配手法論文が公開された。競合する勾配方向を調和させるアプローチが提示されている。現時点で追加の実装・評価情報は確認...
arXivとHugging Faceで気象専門ベンチマーク「K-MetBench」が公開された。専門家推論・地域性・マルチモーダルの3軸で大規模モデルを評価する...
arXivに投稿された論文で、AIエージェントが研究を理解・再現・拡張するための新プロトコル「Ara」が提案された。従来の論文形式を、科学的論理・実行可能コード...
arXivの新論文がLLM推論学習で「SFT後にRL」の二段階学習が混合Policy手法を上回ると報告。 学習パイプラインの設計判断に直接影響する知見で、Pos...
arXivに『The Override Gap』論文が公開され、ハイパーネットワークを使った即時LLM適応で既存知識を上書きできない「Override Gap」...
arXivに『Modeling Induced Pleasure through Cognitive Appraisal Prediction via Mult...
LLMとLAMを融合したエージェント型材料探索フレームワーク『ElementsClaw』がarXivで公開された。転移温度6.8KのZr3ScRe8など新超伝導...
NVIDIAが超音波プローブの生チャンネルデータから患者固有の音速マップを直接生成するAI「NV-Raw2Insights-US」を公開。既存スキャナーへソフト...
arXivで『Agentic World Modeling』と題する論文が公開された。エージェント型AIの世界モデルの基礎・能力・法則を体系化する内容。自律エー...
arXivで公開された論文が、LLM生成の物語における国籍別の表現的害を検証。グローバル多数派(Global Majority)の国籍に対し、ステレオタイプや否...
arXivで公開された論文が、AIエージェントがコーディングタスクで消費するトークン量を分析・予測する手法を提示。タスク完了までにかかるAPI費用の見積もりが現...
arXiv公開の新論文がスケーリング則のフィッティングに能動的実験選択を導入。少ない学習実験で精度よくフィット可能。実装コードがGitHubで公開済み。
arXivに『Relaxation-Informed Training of Neural Network Surrogate Models』が公開された。数値...
UAEのTIIがアラビア語LLM向け新リーダーボードQIMMAを公開。品質優先の評価設計で既存ベンチマークの汚染問題に対応。実装コードと論文も同時公開され、アラ...
NVIDIAが2026年4月23日、春の天文学の日に合わせてAI・GPUによる初期宇宙解析支援をテーマとした記事を公開した。天文学者が直面する前例のない規模の宇...
2026年4月23日、マルチキャリブレーションのサンプル複雑度がΘ̃(ε^-3)であることを理論的に証明した論文がarXivに公開された。周辺キャリブレーション...
継続学習の手法比較は「どの層を学習可能にするか」によって結論が逆転することが実証された。online EWC・LwF・SI・GEMの4手法を5種類のファインチュ...
動画内の時間の流れを「速い動き」と「遅い動き」に分けて学習する新手法「Seeing Fast and Slow」が2026年4月25日にarXivで公開された。...
生成型LLMをASR評価に活用する新手法が論文として公開され、人間アノテータとの一致率92〜94%を達成した。従来のWER(単語誤り率)が63%の一致率にとどま...
連続学習ベンチマークの評価結果が、データ分割方法だけで大きく変わることを示す論文が2026年4月24日に公開された。同じストリームを9日・30日・44日で分割す...