Skip to content

Dadmatech/Persian-spell-checkers-comparison

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 

Repository files navigation

ارزیابی اصلاح گر املایی فارسی

امروزه طیف وسیعی از کاربران فارسی‌زبان اعم از دانشجویان، محققین و تولیدکنندگان محتوا با اصلاح‌گرهای املایی سروکار دارند. اصلاح‌گر املایی چنان‌چه عملکرد مطلوبی ارائه دهد، هم فرایند نگارش را تسریع نموده و هم کیفیت متن نهایی را ارتقا می‌بخشد. به‌رغم معرفی و توسعه چندین اصلاح‌گر املایی مختص به فارسی در سال‌های اخیر، اطلاعات جامع و قابل‌اتکایی از کیفیت هریک و به‌خصوص در قیاس با یکدیگر در دست نیست. این امر ما را برآن داشت تا با جمع‌آوری و تهیه دادگان ارزیابی استاندارد و متنوع، اصلاح‌گرهای املایی مشهور موجود در زبان فارسی را در بوته آزمایش قرار داده و نتایج را به‌تفکیک و با شرح توضیحات لازم، به‌صورت عمومی منتشر سازیم. امید داریم ماحصل این تلاش، هم کاربران را در گزینش اصلاح‌گر املایی دلخواه یاری رساند و هم توسعه‌دهندگان این دست محصولات را بیش از پیش، نسبت به کیفیت محصول خود و محصولات مشابه آگاهی بخشد.

دادگان ارزیابی

بررسی‌های صورت‌گرفته در راستای یافتن دادگان ارزیابی مناسب، آخرسر سه دادگان ذره‌بین، PerSpellData و شرق را پیش‌روی ما نهاد. باتوجه به ضعف‌های هریک از این دادگان که در ادامه بیان خواهد شد، دو مجموعه دادگان جدید نیز توسط تیم ما ساخته و به‌کارگرفته شد. جزئیات آماری هریک از این دادگان، در جدول زیر قابل مشاهده است.

دادگان ذره‌بین: مجموعه‌ای از ۱۰۳۳ زوج عبارت صحیح و عبارت دارای خطا از سرچ‌های کاربران سامانه ذره‌بین همراه اول

دادگان ارزیابی PerSpellData: مجموعه‌داده‌ی ارزیابی معرفی شده در مقاله‌ی PerSpellData * شامل ۱۱۲۷ زوج عبارت صحیح و عبارت دارای خطا

PerSpellData: An Exhaustive Parallel Spell Dataset For Persian, 2021

دادگان شرق : شامل ۲۲۳ زوج عبارت صحیح و عبارت دارای خطا تهیه شده توسط دکتر ممتازی

مجموعه دادگان نویسه : یکی از روش‌های نوین در ساخت زوج دادگان املایی، روش خودکار و مبتنی بر اعمال نویز است. بر اساس این رویکرد، دادگان نویسه تولید شده و در این ارزیابی نیز مورد استفاده قرار گرفته است. در ساخت این دادگان کوشیده‌ایم، انواع و اقسام خطاهای محتمل املایی را پوشش دهیم. علاوه بر این، عوامل اثرگذاری هم‌چون جایگاه حروف در صفحه کلیدهای فارسی، حروف هم‌آوا، حروف هم‌شکل و غلط‌های مصطلح را نیز تا حد امکان در ساخت دادگان دخیل نموده‌ایم. نکته پایانی هم آن‌که ماده خام این دادگان، آخرین خبرهای خزش‌شده از صفحات خبری فارسی بوده تا احتمال هم‌پوشانی دادگان ارزیابی با دادگان آموزش اصلاح‌گرهای املایی به حداقل برسد. این دادگان در سه دسته تهیه شده‌است:

۱. دادگانی از جملات متن‌های خبری

۲. دادگان عنوان خبرها

۳. دادگان عنوان خبر - ۵۳۹ دادگان کوچک‌تری که از ۵۳۹ رکورد اول دادگان عنوان‌ خبرهای درست‌ست تعریف شده است تا ارزیابی آن دسته از اصلاح‌گرهای املایی که نیاز به اعمال دستی دارند تسهیل شود.

اطلاعات کلی مجموعه دادگان یاد شده:

نام دادگان‌ تعداد جمله‌ها میانگین تعداد کلمات در جمله تعداد خطا میانگین خطا در جمله دانلود
دادگان ذره‌بین ۱۰۳۳ ۳.۵۴ ۱۴۰۷ ۱.۳۶ لینک
دادگان PerSpellData ۱۱۲۷ ۱۲.۹ ۱۱۵۷ ۱.۰۲ لینک
دادگان شرق ۲۲۳ ۸.۵۱ ۲۲۲ ۰.۹۹ لینک
دادگان نویسه - متن خبر ۴۵۱ ۲۴.۷۶ ۲۳۰۵ ۵.۱۱ لینک گیت‌هاب
دادگان نویسه - عنوان خبر - ۵۳۹ ۵۳۹ ۱۰.۰۲ ۵۱۰ ۰.۹۴ لینک گیت‌هاب
دادگان نویسه - عنوان خبر ۱۹۴۲۱ ۱۰.۲۱ ۱۸۳۶۸ ۰.۹۴ لینک گیت‌هاب

چالش‌های مجموعه‌ها

ذره‌بین: این دادگان منحصر به جست‌وجوهای کاربران بوده و بنابراین برای فرم‌های دیگری از متن مانند متون بلند محک مناسبی به‌شمار نمی‌رود.

دادگان شرق: حجم اندک این دادگان، نقطه‌ضعف اصلی آن محسوب می‌شود.

پراسپل‌دیتا-تست‌ست: این دادگان، اگرچه غلط‌های مصطلح را مدنظر قرار داده اما از تنوع بسیار کمی برخوردار است. برای مثال در ۵ رکورد اول این دادگان خطای یکتا وجود دارد.

ردیف جمله
۱ مرادی با اشاره به آبات قرآن که خداوند می‌فرماید
۲ قرآن راه سعادت آبات قرآن و احادیث مرتبط آیه‌های قرآنی و فرهنگ مسلمانی و سعادت در خانه بسیار قرآن خوانده شود
۳‌ و حتی آبات قرآن را هم می‌دونستم
۴ همان بیتی که آبات نور الهی در آن نازل گردیده
۵‌ و خداوند تعلل و کوتاهی و سهل انگاری در این زمینه را طبق صریح آبات قرآن و متون دینی صحیح ذیربط از ما نخواهد بخشید

معیارهای ارزیابی

مرحله‌ی بعدی معرفی معیارهایی برای سنجش است. معمولا نرخ تشخیص خطا و نرخ اصلاح واژه‌‌ها می‌توانند مهمترین معیار باشند اما نرخ واژه‌های صحیحی که غلط تشخیص داده‌می‌شوند نیز از اهمیت بالایی برخوردار است. به همین دلیل معیار precision با توجه به مسئله تعریف می‌شود. نحوه‌ی محاسبه معیار‌ها در فایل Persian_Spell_checkers_comparison.ipynb قابل مشاهده است. معیار‌ها:

نرخ کشف خطا (Recall)

نرخ صحت کشف خطاها(Precision)

نرخ اصلاح واژه‌های خطا

نرخ تخریب واژه‌های صحیح

نحوه‌ی ارزیابی اصلاح‌گرهای املایی

اصلاح‌گر املایی گوگل در پیشنهاد‌های google doc برای جایگزینی واژه‌‌ها دیده‌ می‌شود. متن به‌دست آمده از اعمال دستی این تغییرات به عنوان خروجی اصلاح‌گر املایی گوگل درنظر گرفته شد. چون فرایند استفاده از این اصلاح‌گر زمان‌بر است تنها برای ارزیابی دادگان‌هایی با حجم کوچک استفاده می‌شود.

ویراست‌من برای ارزیابی تنها به کمک افزونه‌ای در MS Office Word در دسترس است و با اعمال دستی می‌توان کلمات را تصحیح کرد. به دلیل این محدودیت ارزیابی فقط روی مجموعه‌داده‌های کوچک امکان‌پذیر است. ویراست‌من ممکن است برای هر کلمه‌ای که اشتباه تشخیص دهد چندین پیشنهاد ارائه دهد که در این ارزیابی اولین گزینه انتخاب می‌شود بدون توجه به این که کدام‌یک از پیشنهاد‌‌ها می‌تواند پیشنهاد مناسب‌تری باشد.

پاک‌نویس: برای ارزیابی از API پاک‌نویس که مبتنی بر توکن است استفاده کردیم که توکن توسط تیم پاک‌نویس در اختیار شرکت دادماتک قرارگرفته است.

نویسه دمو اصلاح‌گر نویسه نسخه‌ی ۱ و ۲ در این آدرس و در دو تب جدا قرار دارد.

ملاحظات ارزیابی

یکی از چالش‌های ارزیابی اصلاح‌گر املایی برای متن فارسی، نوشته‌شدن واژه‌ها به اشکال مختلف است که این تنوع در استفاده یا عدم استفاده از نیم‌فاصله و فاصله یا استفاده از برخی کاراکتر‌های خاص مثل همزه و تنوین پیش‌می‌آید. اما چون اشکالاتی حتی در دیتای صحیح دیده می‌شود و تشخیص درستی آن گاهی تنها به کمک زبان‌شناس ممکن است، تا حد امکان خطاهای مربوط به این تفاوت برای سامانه‌ها درنظر گرفته نمی‌شود.

برخی از اصلاح‌گرهای املایی مانند ویراست‌من، اغلب به ازای هر واژه چندین واژه کاندیدا پیشنهاد می‌دهند. در این ارزیابی، تنها نخستین پیشنهاد هر سامانه، به عنوان واژه گزارش شده توسط سامانه برای هر واژه لحاظ شده و سایر پیشنهادها حتی در صورت صحت، نادیده گرفته شده‌اند.

جدول و نتایج


دادگان ذره‌بین

الگوریتم نرخ کشف کلمات نادرست نرخ تصحیح کلمات خطا نرخ تخریب کلمات صحیح نرخ صحت کشف خطاها
گوگل ۰.۹۳۱۸ ۰.۹۱۴ ۰.۰۰۲۶ ۰.۹۹۶۲
نویسه۲ ۰.۸۹۵۵ ۰.۸۱۳۱ ۰.۰۰۱۶ ۰.۹۹۷۶
پاک‌نویس ۰.۸۷۷ ۰.۷۸۸۹ ۰.۰۳۱۷ ۰.۹۵۵۸
ویراست‌من ۰.۸۳۴۲ ۰.۸۰۲۸ ۰.۰۰۰۶ ۰.۹۹۹۱

دادگان PerSpellData

الگوریتم نرخ کشف کلمات نادرست نرخ تصحیح کلمات خطا نرخ تخریب کلمات صحیح نرخ صحت کشف خطاها
پاک‌نویس ۰.۹۴۵۵ ۰.۸۲۴۵ ۰.۰۱۶ ۰.۸۳۹۶
نویسه۲ ۰.۹۱۹۶ ۰.۸۳۵۸ ۰.۰۰۳۴ ۰.۹۵۹۴
ویراست‌من ۰.۷۹۵۲ ۰.۶۵۰۸ ۰.۰۰۰۸ ۰.۹۸۹۲

دادگان شرق

الگوریتم نرخ کشف کلمات نادرست نرخ تصحیح کلمات خطا نرخ تخریب کلمات صحیح نرخ صحت کشف خطاها
نویسه۲ ۰.۸۲۴۳ ۰.۶۴۸۶ ۰.۰۰۳۸ ۰.۹۶۸۳
پاک‌نویس ۰.۷۵۶۸ ۰.۵۸۱۱ ۰.۰۲۹۵ ۰.۷۸۵
ویراست‌من ۰.۶۰۳۶ ۰.۴۸۲ ۰.۰ ۱.۰

دادگان نویسه - متن خبر

الگوریتم نرخ کشف کلمات نادرست نرخ تصحیح کلمات خطا نرخ تخریب کلمات صحیح نرخ صحت کشف خطاها
نویسه۲ ۰.۸۳۸۶ ۰.۷۳۶۷ ۰.۰۰۳۷ ۰.۹۸۳۲
پاک‌نویس ۰.۷۹۳۱ ۰.۶۶۰۷ ۰.۰۲۱۷ ۰.۹۰۶۳

دادگان نویسه - عنوان خبر - ۵۳۹ جمله

الگوریتم نرخ کشف کلمات نادرست نرخ تصحیح کلمات خطا نرخ تخریب کلمات صحیح نرخ صحت کشف خطاها
نویسه۲ ۰.۸۳۱۴ ۰.۷۲۱۶ ۰.۰۰۳ ۰.۹۶۸
پاک‌نویس ۰.۷۸۴۳ ۰.۶۷۰۶ ۰.۲۲۸ ۰.۷۹۲۱
گوگل ۰.۷۳۹۲ ۰.۷۰۲ ۰.۰۰۴۵ ۰.۹۴۴۹
ویراست‌من ۰.۶ ۰.۵ ۰.۰۰۳۲ ۰.۹۵۳۳

دادگان نویسه - عنوان خبر

الگوریتم نرخ کشف کلمات نادرست نرخ تصحیح کلمات خطا نرخ تخریب کلمات صحیح نرخ صحت کشف خطاها
نویسه۲ ۰.۸۲۸ ۰.۷۱۰۲ ۰.۰۰۸۶ ۰.۹۰۸۳
پاک‌نویس ۰.۷۸۰۲ ۰.۶۴۵۸ ۰.۰۲۳۵ ۰.۷۷۷

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published