Передача стилю як пом'якшення упередженості: моделі дифузії для синтетичного тексту психічного здоров'я для арабської мови

Quick read

1 bullets

Синтетичні дані пропонують перспективне рішення для пом'якшення дефіциту даних та демографічних упереджень в аналізі психічного здоров'я, проте існуючі підходи значною мірою покладаються на попередньо підготовлені моделі великих мов (LLM), які можуть страждати від обмеженого різноманіття результатів та поширювати упередження, успадковані від їх навчальних даних. У цій роботі ми пропонуємо підхід на основі дифузії без попереднього навчання для генерації синтетичного тексту, який обрамляє пом'якшення зміщення як проблему передачі стилю. Використовуючи арабський корпус психічного здоров'я CARMA, який демонструє значний гендерний дисбаланс, ми зосереджуємось на передачі стилю від чоловіка до жінки, щоб збільшити недостатньо представлений вміст авторів жінок. Ми будуємо п'ять наборів даних, що фіксують різні лінгвістичні та семантичні аспекти гендерного вираження арабською мовою, та тренуємо окремі моделі дифузії для кожного середовища. Кількісні оцінки демонструють стабільно високу семантичну вірність між вихідним та згенерованим текстом, поряд із значущою стилістичною розбіжністю на поверхневому рівні, тоді як якісний аналіз підтверджує лінгвістично правдоподібні гендерні перетворення. Наші результати показують, що передача стилів на основі дифузії може генерувати високоентропійні, семантично вірні синтетичні дані без залежності від попередньо підготовлених LLM, забезпечуючи ефективну та гнучку основу для пом'якшення гендерних упереджень у чутливих сферах психічного здоров'я з низьким рівнем ресурсів.

Чому це важливо

✦

Синтетичні дані пропонують перспективне рішення для пом'якшення дефіциту даних та демографічних упереджень в аналізі психічного здоров'я, проте існуючі підходи значною мірою покладаються на попередньо підготовлені моделі великих мов (LLM), які можуть страждати від обмеженого різноманіття результатів та поширювати упередження, успадковані від їх навчальних даних. У цій роботі ми пропонуємо підхід на основі дифузії без попереднього навчання для генерації синтетичного тексту, який обрамляє пом'якшення зміщення як проблему передачі стилю. Використовуючи арабський корпус психічного здоров'я CARMA, який демонструє значний гендерний дисбаланс, ми зосереджуємось на передачі стилю від чоловіка до жінки, щоб збільшити недостатньо представлений вміст авторів жінок. Ми будуємо п'ять наборів даних, що фіксують різні лінгвістичні та семантичні аспекти гендерного вираження арабською мовою, та тренуємо окремі моделі дифузії для кожного середовища. Кількісні оцінки демонструють стабільно високу семантичну вірність між вихідним та згенерованим текстом, поряд із значущою стилістичною розбіжністю на поверхневому рівні, тоді як якісний аналіз підтверджує лінгвістично правдоподібні гендерні перетворення. Наші результати показують, що передача стилів на основі дифузії може генерувати високоентропійні, семантично вірні синтетичні дані без залежності від попередньо підготовлених LLM, забезпечуючи ефективну та гнучку основу для пом'якшення гендерних упереджень у чутливих сферах психічного здоров'я з низьким рівнем ресурсів.

Builder takeaway

arXiv published this update in the NLP lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Синтетичні дані пропонують перспективне рішення для пом'якшення дефіциту даних та демографічних упереджень в аналізі психічного здоров'я, проте існуючі підходи значною мірою покладаються на попередньо підготовлені моделі великих мов (LLM), які можуть страждати від обмеженого різноманіття результатів та поширювати упередження, успадковані від їх навчальних даних. У цій роботі ми пропонуємо підхід на основі дифузії без попереднього навчання для генерації синтетичного тексту, який обрамляє пом'якшення зміщення як проблему передачі стилю. Використовуючи арабський корпус психічного здоров'я CARMA, який демонструє значний гендерний дисбаланс, ми зосереджуємось на передачі стилю від чоловіка до жінки, щоб збільшити недостатньо представлений вміст авторів жінок. Ми будуємо п'ять наборів даних, що фіксують різні лінгвістичні та семантичні аспекти гендерного вираження арабською мовою, та тренуємо окремі моделі дифузії для кожного середовища. Кількісні оцінки демонструють стабільно високу семантичну вірність між вихідним та згенерованим текстом, поряд із значущою стилістичною розбіжністю на поверхневому рівні, тоді як якісний аналіз підтверджує лінгвістично правдоподібні гендерні перетворення. Наші результати показують, що передача стилів на основі дифузії може генерувати високоентропійні, семантично вірні синтетичні дані без залежності від попередньо підготовлених LLM, забезпечуючи ефективну та гнучку основу для пом'якшення гендерних упереджень у чутливих сферах психічного здоров'я з низьким рівнем ресурсів.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive