NLP در دهه گذشته با استفاده از مدلهای عصبی و مجموعه دادههای برچسبدار بزرگ به پیشرفتهای زیادی دست یافته است. وابستگی به دادههای فراوان مانع از اعمال مدلهای NLP به تنظیمات کممنبع یا کارهای جدید میشود که در آن زمان، پول یا تخصص قابلتوجهی برای برچسبگذاری حجم عظیمی از دادههای متنی مورد نیاز است. اخیراً روشهای افزایش داده به عنوان ابزاری برای بهبود کارایی داده در NLP مورد بررسی قرار گرفتهاند. تا به امروز، هیچ مرور تجربی سیستماتیکی از افزایش دادهها برای NLP در تنظیمات دادههای برچسبگذاری شده محدود وجود نداشته است ، که درک اینکه کدام روشها در چه تنظیماتی کار میکنند را دشوار میکند. در این مقاله، ما یک بررسی تجربی ارائه می دهیمپیشرفت اخیر در افزایش دادهها برای NLP در مجموعه دادههای برچسبگذاری شده محدود، خلاصه کردن چشمانداز روشها (از جمله تقویتهای سطح نشانه، تقویتهای سطح جمله، تقویتهای خصمانه، و افزایش فضای پنهان) و انجام آزمایشهایی روی ۱۱ مجموعه داده که موضوعات را پوشش میدهند. / طبقه بندی اخبار، وظایف استنتاج، وظایف بازنویسی، و وظایف تک جمله ای. بر اساس نتایج، ما چندین نتیجهگیری میکنیم تا به پزشکان کمک کنیم تا تقویتهای مناسب را در تنظیمات مختلف انتخاب کنند و در مورد چالشهای فعلی و جهتگیریهای آینده برای یادگیری محدود داده در NLP بحث کنیم.
برچسب ها:
NLP مجموعه دادههای برچسبدار بزرگ طبقه بندی اخبار وظایف استنتاج وظایف بازنویسی و وظایف تک جمله ای