Skip to content

دو پیکره زبانی مربوط به مجموعه مقالات دانشگاه فردوسی مشهد

Notifications You must be signed in to change notification settings

Text-Mining/Ferdowsi-Annotated-Academic-Linguistic-Corpus

Repository files navigation

پیکره زبانی آکادمیک فردوسی

پیکره زبانی شامل متن‌های پیوسته طبیعی است که به‌صورت الکترونیکی ارائه می‌شود و می‌توان از آن اطلاعاتی درباره عناصر زبانی استخراج کرد. پیکره، ابزار مناسبی برای جستجوی سریع اطلاعات در داده‌های عظیم متنی است، لذا وجود پیکره‌های تخصصی در هر حوزه‌ی متنی، کمک شایانی به انجام پژوهش‌های علمی می‌کند. پیکره‌های زبانی کاربردهای فراوانی در حوزه‌های مختلف زبان‌شناسی دارند. استفاده از پیکره در پردازش زبان طبیعی، فرهنگ‌نگاری، پژوهش‌های مرتبط با پی‌گیری تحولات زبانی و استخراج اطلاعات خاص زبانی نمونه‌ای از این کاربردها هستند. در این پژوهش، پیکره‌ی عظیم مقالات علمی-‌پژوهشی اعضای هیات علمی دانشگاه فردوسی مشهد شامل مقالات اعضای هیات‌علمی گروه‌های آموزشی زبان و ادبیات فارسی، زبان و ادبیات عربی، زبان فرانسه، زبان انگلیسی، زبان روسی، زبان‌شناسی، علوم اجتماعی، جغرافیا، تاریخ، مهندسی کامپیوتر، مهندسی برق، مهندسی مکانیک، مهندسی عمران، مهندسی شیمی، مهندسی متالورژی و مواد، مهندسی صنایع، اقتصاد کشاورزی، بیوتکنولوژی وبه نژادی گیاهی، مکانیک بیوسیستم، علوم خاک، اگروتکنولوژی، علوم باغبانی و مهندسی فضای سبز، علوم دامی، علوم و صنایع غذایی، گیاه‌پزشکی، علوم مهندسی آب، فلسفه و حکمت اسلامی، فقه و مبانی حقوق اسلامی، علوم قرآن و حدیث، تاریخ و تمدن اسلامی، ادیان و عرفان تطبیقی، معارف اسلامی، حقوق جزا و جرم‌شناسی، حقوق خصوصی، علوم سیاسی، علوم پایه، پاتوبیولوژی، بهداشت مواد غذایی و آبزیان، علوم درمانگاهی، بهداشت و پیشگیری از بيماري های دامی، فیزیک، شیمی، زمین‌شناسی، زیست‌شناسی، اقتصاد، مدیریت، حسابداری، روان‌شناسی، روان‌شناسی مشاوره و تربیتی، علم اطلاعات و دانش شناسی، مبانی تعلیم و تربیت، مدیریت آموزشی و توسعه منابع انسانی، مطالعات برنامه درسی و آموزش، آمار، رفتار حرکتی و مدیریت ورزشی، فیزیولوژی ورزشی و آسیب‌شناسی، ورزش و حرکات اصلاحی، تربیت‌بدنی و علوم ورزشی، معماری، شهرسازی، محیط زیست، مرتع و آبخیزداری، مدیریت مناطق خشک و بی‌ابانی، علوم و مهندسی شیلات، و مهندسی طبیعت ساخته شده است. برای ایجاد پیکره، ابتدا نرم‌افزار پیکره‌ساز طراحی و ساخته شد. این نرم‌افزار از قابلیت پردازش فایل‌های متنی با فرمت‌های RTF، docx، doc، txt و pdf برخوردار است. پس از گردآوری مجموعه مقالات اعضای هیات‌علمی دانشگاه فردوسی مشهد، تمامی محتوای متنی موجود در پیکره به جملات تشکیل‌دهنده‌ی آن تجزیه و در قالب فایل‌های مجزا ذخیره شد. پس از گردآوری مجموعه مقالات علمی-پژوهشی اعضای هیات علمی دانشگاه فردوسی مشهد در دو گروه علوم انسانی و مهندسی، تمامی محتوای متنی موجود در پیکره به جملات تشکیل‌دهنده‌ی آن تجزیه و در قالب فایل‌های مجزا ذخیره شد. سپس با استفاده از نرم‌افزار پیکره‌ساز طراحی شده، داده‌ها از نظر مقوله‌های گفتار شامل اسم، فعل، صفت، حرف اضافه و قید برچسب‌گذاری شد. در نهایت، خروجی اصلی و برچسب خورده به دست آمد که امکان جستجوی سریع تمام مطالب در آن وجود دارد. علاوه بر امکان استخراج اطلاعات به‌طور مستقیم، اطلاعات از طریق یک واسط کاربری گرافیکی نیز قابل دسترسی هستند. این واسط کاربری جهت استفاده‌ی افراد غیرحرفه‌ای از پیکره طراحی شده است. در نسخه‌ی 1، مجموع مقاله‌ها مشتمل بر ۱۱۰۰ عنوان است. دقت برچسب‌گذاری پیکره ۹۶٪ است. پیکره‌ی ساخته شده قابلیت بسیار بالایی در داده‌کاوی و انجام پژوهش بر روی متون علمی دارد. این پیکره قادر به برچسب‌گذاری مقولات، ریشه¬¬یابی کلمات، و تجزیه آن‌ها می‌باشد. با استفاده از این پیکره می‌توان علاوه بر امکان جستجوی تک‌واژه‌ها یا عبارات، می‌توان فهرست بسامدی واژگان را از پیکره استخراج کرد و توصیفی داده‌محور از نحوه‌ی کاربرد زبان توسط گروه‌های مختلف کاربران زبانی ارائه داد. تولید پیکره زبانی آکادمیک فردوسی، راه را برای بسیاری از پژوهش‌های زبانی در حوزه‌های مختلف از جمله زبان‌شناسی رایانشی، زبان‌شناسی اجتماعی، و تحلیل متن هموار می‌کند و موجب کاهش زمان و هزینه و بالا بردن دقت در پژوهش‌های آتی می‌شود.


Ferdowsi Annotated Academic Language Corpus

Linguistic corpora consist of natural continuous texts presented electronically, from researchers can extract information about linguistic elements. A corpus is a useful tool for quick search of information in large textual data, and is also a helpful instrument for conducting scientific research. Linguistic corpora have many applications in the various fields of linguistics. Some of the most important uses of corpus include natural language processing, uses in lexicography, tracking language developments, and extracting specific linguistic information. The purpose of this project was to construct an academic linguistic corpus encompassing research articles. The articles encoded in this corpus are those written by faculty members of Ferdowsi University of Mashhad in the fields of Humanities, Engineering, Science, and Agricultural Science. To create the corpus, an encoding software was first designed and created. This software supports a variety of formats including doc, docx, RTF, txt, and pdf. Then, research articles written by faculty members of Ferdowsi University of Mashhad from the two fields of humanities and engineering sciences were collected. The whole corpus was divided into separate files and then subdivided into its constituent sentences. Next, using the designed corpus software, the data were labeled in terms of part of speech categories including noun, verb, adjective, preposition, and adverb. Finally, the main tagged output was obtained. This tagged output allows for quick search in the content. In addition to the ability to extract information directly, we developed a simple interface for non-technical users to interact with the data. This user interface is designed for non-professionals to use the corpus. It should be noted that the present corpus is an open corpus and can be updated. Version 1.0 contains over 1100 research articles. The accuracy of the corpus labeling is 96%. The constructed corpus has a very high capacity and can be used for data mining and use in all research conducted in the academic genre. This corpus is able to label categories, trace words, and parse them. Using this corpus, one can extract a data-driven description of how different groups of academic members use language by referring to frequency lists of words and multiple concordances of words and phrases in several domains. Ferdowsi Annotated Academic Linguistic Corpus paves the way for many types of linguistic research in various fields such as computational linguistics, social linguistics, text analysis, etc., and reduces time and cost and increases the accuracy of future research.


Sample data:

1	نتایج	نتیجه	ADR	EXAJ	56296-184389-1-SM#SenID=7	-	-	-	-
2	تجزیه	تجزیه	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
3	واریانس	واریانس	N	AJCM	56296-184389-1-SM#SenID=7	-	-	-	-
4	طی	طی	PREP	PREP	56296-184389-1-SM#SenID=7	-	-	-	-
5	دوسال	دو‌سال	N	RECPR	56296-184389-1-SM#SenID=7	-	-	-	-
6	آزمایش	آزمایش	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
7	داد	داد	V	ACT	56296-184389-1-SM#SenID=7	-	-	-	-
8	که	که	SUBR	SUBR	56296-184389-1-SM#SenID=7	-	-	-	-
9	اثر	اثر	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
10	منابع	منبع	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
11	مختلف	مختلف	ADJ	AJP	56296-184389-1-SM#SenID=7	-	-	-	-
12	تغذیه	تغذیه	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
13	ای	ای	V	ACT	56296-184389-1-SM#SenID=7	-	-	-	-
14	و	و	CONJ	CONJ	56296-184389-1-SM#SenID=7	-	-	-	-
15	سطوح	سطح	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
16	آب	آب	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
17	آبیاری	آبیاری	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
18	بر	بر	PREP	PREP	56296-184389-1-SM#SenID=7	-	-	-	-
19	ارتفاع	ارتفاع	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
20	بوته	بوته	N	ACT	56296-184389-1-SM#SenID=7	-	-	-	-
21	،	،	PUNC	PUNC	56296-184389-1-SM#SenID=7	-	-	-	-
22	طول	طول	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
23	سرشاخه	سرشاخ	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
24	گلدار	گل	ADJ	AJP	56296-184389-1-SM#SenID=7	-	-	-	-
25	،	،	PUNC	PUNC	56296-184389-1-SM#SenID=7	-	-	-	-
26	تعداد	تعداد	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
27	غوزه	غوزه	N	AJCM	56296-184389-1-SM#SenID=7	-	-	-	-
28	در	در	PREP	PREP	56296-184389-1-SM#SenID=7	-	-	-	-
29	بوته	بوته	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
30	،	،	PUNC	PUNC	56296-184389-1-SM#SenID=7	-	-	-	-
31	وزن	وزن	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
32	کاسبرگ	کاسبرگ	N	POSNUM	56296-184389-1-SM#SenID=7	-	-	-	-
33	خشک	خشک	ADJ	AJP	56296-184389-1-SM#SenID=7	-	-	-	-
34	در	در	PREP	PREP	56296-184389-1-SM#SenID=7	-	-	-	-
35	بوته	بوته	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
36	،	،	PUNC	PUNC	56296-184389-1-SM#SenID=7	-	-	-	-
37	عملکرد	عملکرد	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
38	کاسبرگ	کاسبرگ	N	ACT	56296-184389-1-SM#SenID=7	-	-	-	-
39	،	،	PUNC	PUNC	56296-184389-1-SM#SenID=7	-	-	-	-
40	عملکرد	عملکرد	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
41	زیست	زیست	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
42	توده	توده	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
43	،	،	PUNC	PUNC	56296-184389-1-SM#SenID=7	-	-	-	-
44	فعالیت	فعالیت	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
45	آنتیآکسیدانی	آنتیآکسیدانی	N	ANM	56296-184389-1-SM#SenID=7	-	-	-	-
46	و	و	CONJ	CONJ	56296-184389-1-SM#SenID=7	-	-	-	-
47	میزان	میزان	N	IANM	56296-184389-1-SM#SenID=7	-	-	-	-
48	آنتوسیانین	آنتوسیانین	N	PRADR	56296-184389-1-SM#SenID=7	-	-	-	-
49	کاسبرگ	کاسبرگ	N	PSUS	56296-184389-1-SM#SenID=7	-	-	-	-
50	معنی‌دار	معنی‌دار	ADJ	INTG	56296-184389-1-SM#SenID=7	-	-	-	-
51	بود	بود#باش	V	ACT	56296-184389-1-SM#SenID=7	-	-	-	-
52	.	.	PUNC	PUNC	56296-184389-1-SM#SenID=7	-	-	-	-

For more information, please visit our paper in the journal of Library and Information Sciences (LIS)

About

دو پیکره زبانی مربوط به مجموعه مقالات دانشگاه فردوسی مشهد

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published