
PGS.TS. Mo El-Haj
Viện Kỹ Thuật Và Khoa Học Máy Tính
Associate Professor (Reader), Chương trình Khoa học Dữ liệu
Giám đốc Nhóm Nghiên cứu VinNLP
Giới thiệu
Tiến sĩ Mo El-Haj là Phó Giáo sư (Reader) về Xử lý Ngôn ngữ Tự nhiên (NLP) tại Chương trình Khoa học Dữ liệu, Trường Kỹ thuật và Khoa học Máy tính, Đại học VinUniversity, đồng thời là Nhà nghiên cứu khách mời tại Trường Điện toán và Truyền thông, Đại học Lancaster, Vương quốc Anh. Ông cũng là Giám đốc VinNLP – Nhóm Nghiên cứu NLP của VinUniversity (vinnlp.com).
Là một nhà nghiên cứu tích cực từ năm 2006, Dr. El-Haj đã công bố hơn 90 bài báo được bình duyệt tại các hội nghị hàng đầu như EMNLP, COLING, LREC, ACL, IEEE Big Data, IJCL và NLDB. Nghiên cứu của ông về NLP tập trung nhiều vào các ngôn ngữ có tài nguyên hạn chế, bao gồm tiếng Wales, tiếng Ả Rập, tiếng Igbo, tiếng Hindi và các ngôn ngữ ít được đại diện khác. Ông đã dẫn dắt nhiều dự án phát triển và tinh chỉnh các mô hình ngôn ngữ lớn (LLM) cũng như xây dựng tài nguyên ngôn ngữ để hỗ trợ các ngôn ngữ này trong các nhiệm vụ như tóm tắt văn bản, dịch thuật và phân tích cảm xúc.
Bên cạnh những đóng góp nghiên cứu, Dr. El-Haj cũng đóng vai trò quan trọng trong cộng đồng nghiên cứu NLP toàn cầu. Ông từng là chủ trì tổ chức các hội thảo NLP uy tín như Financial Narrative Processing (FNP), AbjadNLP, WACL, CLIDA và nhiều hội thảo khác. Ngoài ra, ông cũng tham gia tổ chức các hội nghị NLP lớn như COLING, NLPAICS, RANLP, HealTAC và nhiều sự kiện khác. Dr. El-Haj còn là thành viên hội đồng và người phản biện cho nhiều hội nghị và tạp chí NLP hàng đầu, góp phần đảm bảo chất lượng học thuật cao nhất. Ông là thành viên Ban Biên tập của tạp chí Natural Language Engineering (Cambridge University Press) và là thành viên Hội đồng Cố vấn của chuỗi sách Natural Language Processing (John Benjamins Publishing). Ông cũng là Hội viên của Học viện Giáo dục Đại học (FHEA) – Advance HE, Vương quốc Anh.
Những thành tựu nổi bật của Dr. El-Haj bao gồm việc là thành viên của nhóm chiến thắng giải công cụ phục vụ khán giả tốt nhất tại sự kiện BBC NewsHack ở London, thực tập sinh được tài trợ toàn phần tại Viện Tin học Quốc gia Nhật Bản (National Institute of Informatics) tại Tokyo, và nhận Giải thưởng Bài báo Xuất sắc nhất tại Hội nghị LTC lần thứ 4 ở Poznan, Ba Lan.
Trong suốt sự nghiệp của mình, Dr. El-Haj đã giành được nhiều khoản tài trợ nghiên cứu đa dạng, dẫn dắt các dự án có tác động lớn trong các lĩnh vực y tế, tài chính và bảo tồn văn hóa. Ông luôn cam kết thúc đẩy các công nghệ NLP để giải quyết những thách thức của xã hội và tích cực hợp tác với đồng nghiệp cũng như sinh viên.
- Xử lý Ngôn ngữ Tự nhiên (NLP)
- Mô hình Ngôn ngữ Lớn (LLMs)
- Ngôn ngữ có tài nguyên hạn chế
- Tóm tắt văn bản tự động
- Học máy và Dịch máy
- Xây dựng tài nguyên cho các ngôn ngữ ít được đại diện
- Ứng dụng NLP trong Y tế, Tài chính và Bảo tồn Văn hóa
- Xử lý Văn bản Tài chính
- NLP cho phương ngữ tiếng Ả Rập
- Đánh giá độ dễ đọc của tài liệu giáo dục
- An ninh mạng và NLP trong phát hiện mối đe dọa
- Phân tích cảm xúc và thái độ
- Trích xuất và truy xuất thông tin
- Xử lý Ngôn ngữ Tự nhiên (NLP)
- Trí tuệ Nhân tạo và Học máy
- Khoa học Dữ liệu
- Phân tích Văn bản
- Cơ sở Dữ liệu
- Trực quan hóa Dữ liệu
- El-Haj, M., Rayson, P., Walker, M., Young, S., Simaki, V. (2019). “In Search of Meaning: Lessons, Resources and Next Steps for Computational Analysis of Financial Discourse.” Journal of Business Finance & Accounting, 46(3-4), 265-306. [Highly cited, 148 citations]
- El-Haj, M., Alves, P., Rayson, P., Walker, M., Young, S. (2020). “Retrieving, Classifying and Analysing Narrative Commentary in Unstructured (Glossy) Annual Reports Published as PDF Files.” Accounting and Business Research, 50(1), 6-34. [Highly cited, 121 citations]
- Morris, J., Ezeani, I., Gruffydd, I., Young, K., Davies, L., El-Haj, M., Knight, D. (2024). “Welsh Automatic Text Summarisation.” Language and Technology in Wales: Volume II, Bangor University.
- Phillips, J., El-Haj, M., Hall, T. (2024). “Metric-Oriented Pretraining of Neural Source Code Summarisation Transformers to Enable more Secure Software Development.” 1st International Conference on Natural Language Processing and Artificial Intelligence for Cyber Security (NLPAICS), Lancaster, UK.
- El-Haj, M., Saad Ezzini. (2024). “The Multilingual Corpus of World’s Constitutions (MCWC).” 6th Workshop on Open-Source Arabic Corpora and Processing Tools, LREC-COLING 2024, Turin, Italy.
- El-Haj, M., Sultan Almujaiwel, Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov. (2024). “DARES: Dataset for Arabic Readability Estimation of School Materials.” DeTermIt! Workshop, LREC-COLING 2024, Turin, Italy.
- Daniel F. O. Onah, Elaine Ling Ling Pang, El-Haj, M. (2022). “A Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling.” IEEE International Conference on Big Data, Osaka, Japan.
- El-Haj, M., Paul Rayson, Nadhem Zmandar. (2021). “Multilingual Financial Word Embeddings for Arabic, English, and French.” IEEE International Conference on Big Data.
- Parth Saxena, El-Haj, M. (2023). “Exploring Abstractive Text Summarisation for Podcasts: A Comparative Study of BART and T5 Models.” Recent Advances in Natural Language Processing (RANLP), Varna, Bulgaria.
- Nadhem Zmandar, El-Haj, M., Paul Rayson. (2023). “FinAraT5: A Text-to-Text Model for Financial Arabic Text Understanding and Generation.” 4th Conference on Language, Data and Knowledge (LDK), Vienna, Austria.
- Chukwuneke, C. I., Ezeani, I., Rayson, P., El-Haj, M. (2023). “IgboNER: Expanding Named Entity Recognition Datasets via Projection.” AfricaNLP Workshop, ICLR 2023, Kigali, Rwanda.
- Ignatius Ezeani, El-Haj, M., Jonathan Morris, Dawn Knight. (2022). “Introducing the Welsh Text Summarisation Dataset and Baseline Systems.” LREC 2022, Marseille, France.
- El-Haj, M., Elvis de Souza, Nouran Khallaf, Paul Rayson, Nizar Habash. (2022). “AraSAS: The Open Source Arabic Semantic Tagger.” OSACT Workshop, LREC 2022, Marseille, France.
- 2012: Tiến sĩ Khoa học Máy tính, Đại học Essex, Vương quốc Anh
- 2021: Học bổng của Học viện Giáo dục Đại học (FHEA), Advance HE, Vương quốc Anh
- 2008: Thạc sĩ Hệ thống Thông tin, Đại học Jordan, Jordan
- 2005: Cử nhân Hệ thống Thông tin Máy tính, Đại học Jordan, Jordan
GIẢI THƯỞNG VÀ VÂN DỰNG NỔI BẬT
- 2023: Giải Thưởng Thuyết Trình Xuất Sắc, LITHME Training School, Kosovo
- 2021: Học bổng của Học viện Giáo dục Đại học (FHEA), Advance HE, Vương quốc Anh
- 2016: Đội Thắng Giải Công Cụ Tiếp Cận Người Dùng Tốt Nhất, Sự kiện BBC NewsHack, London, Vương quốc Anh
- 2012: Học bổng Tiến sĩ Một Phần, Đại học Essex, Vương quốc Anh
- 2011: Học bổng Toàn phần cho Thực tập, Viện Tin học Quốc gia, Tokyo, Nhật Bản
- 2009: Giải Thưởng Bài Báo Xuất Sắc, Hội nghị Ngôn ngữ và Công nghệ lần thứ 4 (LTC), Poznan, Ba Lan
CÁC DỰ ÁN VÀ GRANT ĐƯỢC TÀI TRỢ NỔI BẬT
- 2025: $10,160 – Sử Dụng NLP để Giám Sát Nứt Ống Nước (Nhà tài trợ: South West Water, Vương quốc Anh, Vai trò: Tư vấn viên)
- 2024: $10,160 – Mô Hình Ngôn Ngữ Welsh Thí Điểm (Nhà tài trợ: Chính phủ Wales, Vai trò: Điều tra viên chính)
- 2024: $12,700 – DigiGrid cho Tài Nguyên Ngôn Ngữ Welsh (Nhà tài trợ: Chính phủ Wales, Vai trò: Điều tra viên chính)
- 2024: $12,700 – Quỹ Catalyst để Phát Triển Nghiên Cứu NLP Celtic (Nhà tài trợ: Khoa Khoa học và Công nghệ, Đại học Lancaster, Vai trò: Điều tra viên chính)
- 2024: $127,000 – FreeTxt: Hỗ Trợ Phân Tích Dữ Liệu Khảo Sát và Câu Hỏi Bằng Văn Bản Miễn Phí Song Ngữ (Nhà tài trợ: AHRC, Vai trò: Đồng Điều tra viên)
- 2023: $54,102 – Talent Track Ứng Dụng Kỹ Thuật NLP và Kinh Tế Lượng (Nhà tài trợ: SAMF, Đan Mạch, Vai trò: Tư vấn viên)
- 2023: $38,100 – Canadian Annual Reports Extractor (CARE) (Nhà tài trợ: Mitacs, HEC Montreal, Đại học Waterloo, CPA Canada, Vai trò: Điều tra viên chính)
- 2022: $114,300 – Sử Dụng Word Embeddings để Tạo Ra Từ Điển Đồng Nghĩa của Tiếng Welsh Đương Đại (Nhà tài trợ: Chính phủ Wales, Vai trò: Điều tra viên chính)
- 2022: $114,300 – Welsh Summary Creator (WSC) (Nhà tài trợ: Chính phủ Wales, Vai trò: Điều tra viên chính)
- 2021: $46,990 – CLARA-Fin: Đọc Hiểu và Đơn Giản Hóa Văn Bản Tài Chính (Nhà tài trợ: Cơ quan Nghiên cứu Tây Ban Nha, Vai trò: Tư vấn viên)
- 2021: $27,940 – Đánh Giá Các Công Bố Doanh Nghiệp Theo Tiêu Chuẩn Kế Toán 15 (Nhà tài trợ: IAAER/KPMG, Vai trò: Điều tra viên chính)
- 2021: $7,620 – Arabic USAS Semantic Tagger (AraSAS) (Nhà tài trợ: Quỹ Khuyến Khích Nghiên Cứu, Đại học Zayed, UAE, Vai trò: Điều tra viên chính)
- 2018: $44,450 – FinT-esp: Các Văn Bản Tài Chính Bằng Tiếng Tây Ban Nha (Nhà tài trợ: Cơ quan Nghiên cứu Tây Ban Nha, Vai trò: Tư vấn viên)
PhD Students
- Gigi Alshahrani: Scope For Using Machine Learning to Detect Offensive Content in Different Arabic Dialects
- Salim Al Mandhari: Arabic Automatic Readability Assessment
- Damith Dola Mullage: Deep Learning Models to Identify Ethical Misconducts in Legal Documents
- Chiamaka Chukwuneke: Named Entity Recognition for African Languages: A Focus on Igbo
- Jesse Phillips: The Automated Generation of Meaningful and Coherent Source Code Documentation Using Natural Language Processing Techniques
- Dr Nadhem Zmandar: Multilingual Financial Summarization
PhD External Examiner for:
- Dr Fatimah Al-Qahtani, King’s College London (KCL), England, UK
- Dr Taghreed Tarmom, University of Leeds, England, UK
- Dr Alaa Alqahtani, University of Birmingham, England, UK
- Dr Chatrine Qwaider, University of Gothenburg, Göteborg, Sweden
- Dr Mohammed Hamed Altamimi, Bangor University, Wales, UK
- Dr Maher Itani, Sheffield Hallam University, England, UK
PhD Internal Examiner for:
- Dr Matthew Coole, Lancaster University, England, UK
- Dr Edward Dearden, Lancaster University, England, UK
- Dr Lama Alsudias, Lancaster University, England, UK
- Dr Ronghui Mu, Lancaster University, England, UK (Chair)