mirror of
https://github.com/huggingface/transformers.git
synced 2025-07-31 02:02:21 +06:00
model card for arabic-ner model (#7836)
* Create README.md README file for the Arabic NER model * Update README.md * Update README.md * Update hatmimoha/arabic-ner/README.md Co-authored-by: Julien Chaumond <chaumond@gmail.com>
This commit is contained in:
parent
829842159e
commit
16d3cc187d
114
hatmimoha/arabic-ner/README.md
Normal file
114
hatmimoha/arabic-ner/README.md
Normal file
@ -0,0 +1,114 @@
|
||||
---
|
||||
language: ar
|
||||
---
|
||||
# Arabic Named Entity Recognition Model
|
||||
|
||||
Pretrained BERT-based ([arabic-bert-base](https://huggingface.co/asafaya/bert-base-arabic)) Named Entity Recognition model for Arabic.
|
||||
|
||||
The pre-trained model can recognize the following entities:
|
||||
1. **PERSON**
|
||||
|
||||
- و هذا ما نفاه المعاون السياسي للرئيس ***نبيه بري*** ، النائب ***علي حسن خليل***
|
||||
|
||||
- لكن أوساط ***الحريري*** تعتبر أنه ضحى كثيرا في سبيل البلد
|
||||
|
||||
- و ستفقد الملكة ***إليزابيث الثانية*** بذلك سيادتها على واحدة من آخر ممالك الكومنولث
|
||||
|
||||
2. **ORGANIZATION**
|
||||
|
||||
- حسب أرقام ***البنك الدولي***
|
||||
|
||||
- أعلن ***الجيش العراقي***
|
||||
|
||||
- و نقلت وكالة ***رويترز*** عن ثلاثة دبلوماسيين في ***الاتحاد الأوروبي*** ، أن ***بلجيكا*** و ***إيرلندا*** و ***لوكسمبورغ*** تريد أيضاً مناقشة
|
||||
|
||||
- ***الحكومة الاتحادية*** و ***حكومة إقليم كردستان***
|
||||
|
||||
- و هو ما يثير الشكوك حول مشاركة النجم البرتغالي في المباراة المرتقبة أمام ***برشلونة*** الإسباني في
|
||||
|
||||
|
||||
3. ***LOCATION***
|
||||
|
||||
- الجديد هو تمكين اللاجئين من “ مغادرة الجزيرة تدريجياً و بهدوء إلى ***أثينا*** ”
|
||||
|
||||
- ***جزيرة ساكيز*** تبعد 1 كم عن ***إزمير***
|
||||
|
||||
|
||||
4. **DATE**
|
||||
|
||||
- ***غدا الجمعة***
|
||||
|
||||
- ***06 أكتوبر 2020***
|
||||
|
||||
- ***العام السابق***
|
||||
|
||||
|
||||
5. **PRODUCT**
|
||||
|
||||
- عبر حسابه ب ***تطبيق “ إنستغرام ”***
|
||||
|
||||
- الجيل الثاني من ***نظارة الواقع الافتراضي أوكولوس كويست*** تحت اسم " ***أوكولوس كويست 2*** "
|
||||
|
||||
|
||||
6. **COMPETITION**
|
||||
|
||||
- عدم المشاركة في ***بطولة فرنسا المفتوحة للتنس***
|
||||
|
||||
- في مباراة ***كأس السوبر الأوروبي***
|
||||
|
||||
7. **PRIZE**
|
||||
|
||||
- ***جائزة نوبل ل لآداب***
|
||||
|
||||
- الذي فاز ب ***جائزة “ إيمي ” لأفضل دور مساند***
|
||||
|
||||
8. **EVENT**
|
||||
|
||||
- تسجّل أغنية جديدة خاصة ب ***العيد الوطني السعودي***
|
||||
|
||||
- ***مهرجان المرأة يافوية*** في دورته الرابعة
|
||||
|
||||
9. **DISEASE**
|
||||
|
||||
- في مكافحة فيروس ***كورونا*** و عدد من الأمراض
|
||||
|
||||
- الأزمات المشابهة مثل “ ***انفلونزا الطيور*** ” و ” ***انفلونزا الخنازير***
|
||||
|
||||
## Example
|
||||
|
||||
[Find here a complete example to use this model](https://github.com/hatmimoha/arabic-ner)
|
||||
|
||||
Here is the map from index to label:
|
||||
|
||||
```
|
||||
id2label = {
|
||||
"0": "B-PERSON",
|
||||
"1": "I-PERSON",
|
||||
"2": "B-ORGANIZATION",
|
||||
"3": "I-ORGANIZATION",
|
||||
"4": "B-LOCATION",
|
||||
"5": "I-LOCATION",
|
||||
"6": "B-DATE",
|
||||
"7": "I-DATE"",
|
||||
"8": "B-COMPETITION",
|
||||
"9": "I-COMPETITION",
|
||||
"10": "B-PRIZE",
|
||||
"11": "I-PRIZE",
|
||||
"12": "O",
|
||||
"13": "B-PRODUCT",
|
||||
"14": "I-PRODUCT",
|
||||
"15": "B-EVENT",
|
||||
"16": "I-EVENT",
|
||||
"17": "B-DISEASE",
|
||||
"18": "I-DISEASE",
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
## Training Corpus
|
||||
|
||||
The training corpus is made of 378.000 tokens (14.000 sentences) collected from the Web and annotated manually.
|
||||
|
||||
## Results
|
||||
|
||||
The results on a valid corpus made of 30.000 tokens shows an F-measure of ~87%.
|
Loading…
Reference in New Issue
Block a user