Supervoxel GNN без декодера для точної локалізації пухлини мозку в мультимодальній МРТ
Сучасні хребти зору для 3D-медичної візуалізації зазвичай обробляють щільні воксельні сітки за допомогою структур кодера-декодера, важких параметрів, конструкції, яка виділяє значну частину своїх параметрів на просторову реконструкцію, а не на вивчення функцій. Наш підхід представляє SVGFormer, конвеєр без декодерів, побудований на стадії групування, що відповідає вмісту, яка розділяє обсяг на семантичний графік супервокселів. Його ієрархічний кодер вивчає багаті уявлення вузлів, поєднуючи трансформатор на рівні патча з мережею уваги графіків на рівні супервокселів, спільно моделюючи тонкозернисті внутрішньорегіональні особливості та ширші міжрегіональні залежності. Цей дизайн концентрує всю здатність, яку можна вивчити, на кодуванні функцій і забезпечує властиву подвійну роз'ясненість від патча до рівня регіону. Щоб перевірити гнучкість структури, ми навчили дві спеціалізовані моделі на наборі даних BRAT: одну для класифікації на рівні вузлів та іншу для регресії пропорції пухлини. Обидві моделі досягли високих показників, при цьому класифікаційна модель досягла F1-балів 0,875, а регресійна модель MAE 0,028, що підтверджує здатність кодера вивчати дискримінаційні та локалізовані особливості. Наші результати встановлюють, що парадигма, заснована лише на графах, пропонує точну та за своєю суттю інтерпретовану альтернативу 3D-представленню медичних зображень.
At a glance
- Source
- arXiv
- Published
- Jan 20, 2026
- Read time
- 1 min read
- Primary lane
- Computer Vision
Quick read
1 bullets- Сучасні хребти зору для 3D-медичної візуалізації зазвичай обробляють щільні воксельні сітки за допомогою структур кодера-декодера, важких параметрів, конструкції, яка виділяє значну частину своїх параметрів на просторову реконструкцію, а не на вивчення функцій. Наш підхід представляє SVGFormer, конвеєр без декодерів, побудований на стадії групування, що відповідає вмісту, яка розділяє обсяг на семантичний графік супервокселів. Його ієрархічний кодер вивчає багаті уявлення вузлів, поєднуючи трансформатор на рівні патча з мережею уваги графіків на рівні супервокселів, спільно моделюючи тонкозернисті внутрішньорегіональні особливості та ширші міжрегіональні залежності. Цей дизайн концентрує всю здатність, яку можна вивчити, на кодуванні функцій і забезпечує властиву подвійну роз'ясненість від патча до рівня регіону. Щоб перевірити гнучкість структури, ми навчили дві спеціалізовані моделі на наборі даних BRAT: одну для класифікації на рівні вузлів та іншу для регресії пропорції пухлини. Обидві моделі досягли високих показників, при цьому класифікаційна модель досягла F1-балів 0,875, а регресійна модель MAE 0,028, що підтверджує здатність кодера вивчати дискримінаційні та локалізовані особливості. Наші результати встановлюють, що парадигма, заснована лише на графах, пропонує точну та за своєю суттю інтерпретовану альтернативу 3D-представленню медичних зображень.
Чому це важливо
Сучасні хребти зору для 3D-медичної візуалізації зазвичай обробляють щільні воксельні сітки за допомогою структур кодера-декодера, важких параметрів, конструкції, яка виділяє значну частину своїх параметрів на просторову реконструкцію, а не на вивчення функцій. Наш підхід представляє SVGFormer, конвеєр без декодерів, побудований на стадії групування, що відповідає вмісту, яка розділяє обсяг на семантичний графік супервокселів. Його ієрархічний кодер вивчає багаті уявлення вузлів, поєднуючи трансформатор на рівні патча з мережею уваги графіків на рівні супервокселів, спільно моделюючи тонкозернисті внутрішньорегіональні особливості та ширші міжрегіональні залежності. Цей дизайн концентрує всю здатність, яку можна вивчити, на кодуванні функцій і забезпечує властиву подвійну роз'ясненість від патча до рівня регіону. Щоб перевірити гнучкість структури, ми навчили дві спеціалізовані моделі на наборі даних BRAT: одну для класифікації на рівні вузлів та іншу для регресії пропорції пухлини. Обидві моделі досягли високих показників, при цьому класифікаційна модель досягла F1-балів 0,875, а регресійна модель MAE 0,028, що підтверджує здатність кодера вивчати дискримінаційні та локалізовані особливості. Наші результати встановлюють, що парадигма, заснована лише на графах, пропонує точну та за своєю суттю інтерпретовану альтернативу 3D-представленню медичних зображень.
Builder takeaway
arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Сучасні хребти зору для 3D-медичної візуалізації зазвичай обробляють щільні воксельні сітки за допомогою структур кодера-декодера, важких параметрів, конструкції, яка виділяє значну частину своїх параметрів на просторову реконструкцію, а не на вивчення функцій. Наш підхід представляє SVGFormer, конвеєр без декодерів, побудований на стадії групування, що відповідає вмісту, яка розділяє обсяг на семантичний графік супервокселів. Його ієрархічний кодер вивчає багаті уявлення вузлів, поєднуючи трансформатор на рівні патча з мережею уваги графіків на рівні супервокселів, спільно моделюючи тонкозернисті внутрішньорегіональні особливості та ширші міжрегіональні залежності. Цей дизайн концентрує всю здатність, яку можна вивчити, на кодуванні функцій і забезпечує властиву подвійну роз'ясненість від патча до рівня регіону. Щоб перевірити гнучкість структури, ми навчили дві спеціалізовані моделі на наборі даних BRAT: одну для класифікації на рівні вузлів та іншу для регресії пропорції пухлини. Обидві моделі досягли високих показників, при цьому класифікаційна модель досягла F1-балів 0,875, а регресійна модель MAE 0,028, що підтверджує здатність кодера вивчати дискримінаційні та локалізовані особливості. Наші результати встановлюють, що парадигма, заснована лише на графах, пропонує точну та за своєю суттю інтерпретовану альтернативу 3D-представленню медичних зображень.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.