.. | ||
README.md |
language |
---|
ar |
Arabic Named Entity Recognition Model
Pretrained BERT-based (arabic-bert-base) Named Entity Recognition model for Arabic.
The pre-trained model can recognize the following entities:
- PERSON
-
و هذا ما نفاه المعاون السياسي للرئيس نبيه بري ، النائب علي حسن خليل
-
لكن أوساط الحريري تعتبر أنه ضحى كثيرا في سبيل البلد
-
و ستفقد الملكة إليزابيث الثانية بذلك سيادتها على واحدة من آخر ممالك الكومنولث
- ORGANIZATION
-
حسب أرقام البنك الدولي
-
أعلن الجيش العراقي
-
و نقلت وكالة رويترز عن ثلاثة دبلوماسيين في الاتحاد الأوروبي ، أن بلجيكا و إيرلندا و لوكسمبورغ تريد أيضاً مناقشة
-
الحكومة الاتحادية و حكومة إقليم كردستان
-
و هو ما يثير الشكوك حول مشاركة النجم البرتغالي في المباراة المرتقبة أمام برشلونة الإسباني في
- LOCATION
-
الجديد هو تمكين اللاجئين من “ مغادرة الجزيرة تدريجياً و بهدوء إلى أثينا ”
-
جزيرة ساكيز تبعد 1 كم عن إزمير
- DATE
-
غدا الجمعة
-
06 أكتوبر 2020
-
العام السابق
- PRODUCT
-
عبر حسابه ب تطبيق “ إنستغرام ”
-
الجيل الثاني من نظارة الواقع الافتراضي أوكولوس كويست تحت اسم " أوكولوس كويست 2 "
- COMPETITION
-
عدم المشاركة في بطولة فرنسا المفتوحة للتنس
-
في مباراة كأس السوبر الأوروبي
- PRIZE
-
جائزة نوبل ل لآداب
-
الذي فاز ب جائزة “ إيمي ” لأفضل دور مساند
- EVENT
-
تسجّل أغنية جديدة خاصة ب العيد الوطني السعودي
-
مهرجان المرأة يافوية في دورته الرابعة
- DISEASE
-
في مكافحة فيروس كورونا و عدد من الأمراض
-
الأزمات المشابهة مثل “ انفلونزا الطيور ” و ” انفلونزا الخنازير
Example
Find here a complete example to use this model
Here is the map from index to label:
id2label = {
"0": "B-PERSON",
"1": "I-PERSON",
"2": "B-ORGANIZATION",
"3": "I-ORGANIZATION",
"4": "B-LOCATION",
"5": "I-LOCATION",
"6": "B-DATE",
"7": "I-DATE"",
"8": "B-COMPETITION",
"9": "I-COMPETITION",
"10": "B-PRIZE",
"11": "I-PRIZE",
"12": "O",
"13": "B-PRODUCT",
"14": "I-PRODUCT",
"15": "B-EVENT",
"16": "I-EVENT",
"17": "B-DISEASE",
"18": "I-DISEASE",
}
Training Corpus
The training corpus is made of 378.000 tokens (14.000 sentences) collected from the Web and annotated manually.
Results
The results on a valid corpus made of 30.000 tokens shows an F-measure of ~87%.