Алі Тунїй лабораторія випустила VimRAG: реконструкція мультимодального пошуку та дедукції за допомогою карт пам’яті

robot
Генерація анотацій у процесі

Звіт з Coinjie, повідомлення ME News, 10 квітня (UTC+8), лабораторія Tongyi (Tongyi Lab) офіційно запустила нове покоління мультимодальної рамки RAG VimRAG, зосереджуючись на вирішенні довгострокової проблеми «сліпих зон стану» існуючих систем. VimRAG оновлює традиційний лінійний історичний запис у мультимодальний граф пам’яті (Multimodal Memory Graph), організовуючи процес логіки за допомогою динамічної орієнтованої ациклічної графової структури (DAG), ефективно усуваючи надмірний пошук і забезпечуючи повний слід досліджуваного шляху. Впроваджено графове модуляційне кодування візуальної пам’яті (Graph-Modulated Visual Memory Encoding), яке адаптивно розподіляє токени для високонавантажених візуальних даних, оснащене механізмом GGPO для досягнення тонкого розподілу кредитів і підвищення точності логіки та атрибуції. За даними опублікованих тестових даних, VimRAG показує видатні результати у мультимодальних бенчмарках, таких як SlideVQA, MMLongBench, LVBench, а версія Qwen3-VL-8B-Instruct має провідний сумарний бал серед аналогічних рішень. Мета VimRAG — перейти від «простого пошуку» до «структурованого надійного логічного висновку» у мультимодальному RAG, забезпечуючи більш потужне системне рішення для обробки складних довгих документів і мультимодальних сценаріїв змішаного типу.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити