PGS.TS. Mo El-Haj

Viện Kỹ Thuật Và Khoa Học Máy Tính

Associate Professor (Reader), Chương trình Khoa học Dữ liệu

Giám đốc Nhóm nghiên cứu NPL @ VinUniversity

Giới thiệu

Tiến sĩ Mo El-Haj là Phó Giáo sư (Reader) về Xử lý Ngôn ngữ Tự nhiên (NLP) tại Chương trình Khoa học Dữ liệu, Trường Kỹ thuật và Khoa học Máy tính, Đại học VinUniversity, đồng thời là Nhà nghiên cứu khách mời tại Trường Điện toán và Truyền thông, Đại học Lancaster, Vương quốc Anh. Ông cũng là Giám đốc Nhóm nghiên cứu NPL @ VinUniversity.

Là một nhà nghiên cứu tích cực từ năm 2006, Dr. El-Haj đã công bố hơn 90 bài báo được bình duyệt tại các hội nghị hàng đầu như EMNLP, COLING, LREC, ACL, IEEE Big Data, IJCL và NLDB. Nghiên cứu của ông về NLP tập trung nhiều vào các ngôn ngữ có tài nguyên hạn chế, bao gồm tiếng Wales, tiếng Ả Rập, tiếng Igbo, tiếng Hindi và các ngôn ngữ ít được đại diện khác. Ông đã dẫn dắt nhiều dự án phát triển và tinh chỉnh các mô hình ngôn ngữ lớn (LLM) cũng như xây dựng tài nguyên ngôn ngữ để hỗ trợ các ngôn ngữ này trong các nhiệm vụ như tóm tắt văn bản, dịch thuật và phân tích cảm xúc.

Bên cạnh những đóng góp nghiên cứu, Dr. El-Haj cũng đóng vai trò quan trọng trong cộng đồng nghiên cứu NLP toàn cầu. Ông từng là chủ trì tổ chức các hội thảo NLP uy tín như Financial Narrative Processing (FNP), AbjadNLP, WACL, CLIDA và nhiều hội thảo khác. Ngoài ra, ông cũng tham gia tổ chức các hội nghị NLP lớn như COLING, NLPAICS, RANLP, HealTAC và nhiều sự kiện khác. Dr. El-Haj còn là thành viên hội đồng và người phản biện cho nhiều hội nghị và tạp chí NLP hàng đầu, góp phần đảm bảo chất lượng học thuật cao nhất. Ông là thành viên Ban Biên tập của tạp chí Natural Language Engineering (Cambridge University Press) và là thành viên Hội đồng Cố vấn của chuỗi sách Natural Language Processing (John Benjamins Publishing). Ông cũng là Hội viên của Học viện Giáo dục Đại học (FHEA) – Advance HE, Vương quốc Anh.

Những thành tựu nổi bật của Dr. El-Haj bao gồm việc là thành viên của nhóm chiến thắng giải công cụ phục vụ khán giả tốt nhất tại sự kiện BBC NewsHack ở London, thực tập sinh được tài trợ toàn phần tại Viện Tin học Quốc gia Nhật Bản (National Institute of Informatics) tại Tokyo, và nhận Giải thưởng Bài báo Xuất sắc nhất tại Hội nghị LTC lần thứ 4 ở Poznan, Ba Lan.

Trong suốt sự nghiệp của mình, Dr. El-Haj đã giành được nhiều khoản tài trợ nghiên cứu đa dạng, dẫn dắt các dự án có tác động lớn trong các lĩnh vực y tế, tài chính và bảo tồn văn hóa. Ông luôn cam kết thúc đẩy các công nghệ NLP để giải quyết những thách thức của xã hội và tích cực hợp tác với đồng nghiệp cũng như sinh viên.

Xử lý Ngôn ngữ Tự nhiên (NLP)
Mô hình Ngôn ngữ Lớn (LLMs)
Ngôn ngữ có tài nguyên hạn chế
Tóm tắt văn bản tự động
Học máy và Dịch máy
Xây dựng tài nguyên cho các ngôn ngữ ít được đại diện
Ứng dụng NLP trong Y tế, Tài chính và Bảo tồn Văn hóa
Xử lý Văn bản Tài chính
NLP cho phương ngữ tiếng Ả Rập
Đánh giá độ dễ đọc của tài liệu giáo dục
An ninh mạng và NLP trong phát hiện mối đe dọa
Phân tích cảm xúc và thái độ
Trích xuất và truy xuất thông tin

Xử lý Ngôn ngữ Tự nhiên (NLP)
Trí tuệ Nhân tạo và Học máy
Khoa học Dữ liệu
Phân tích Văn bản
Cơ sở Dữ liệu
Trực quan hóa Dữ liệu

El-Haj, M., Rayson, P., Walker, M., Young, S., Simaki, V. (2019). “In Search of Meaning: Lessons, Resources and Next Steps for Computational Analysis of Financial Discourse.” Journal of Business Finance & Accounting, 46(3-4), 265-306. [Highly cited, 148 citations]
El-Haj, M., Alves, P., Rayson, P., Walker, M., Young, S. (2020). “Retrieving, Classifying and Analysing Narrative Commentary in Unstructured (Glossy) Annual Reports Published as PDF Files.” Accounting and Business Research, 50(1), 6-34. [Highly cited, 121 citations]
Morris, J., Ezeani, I., Gruffydd, I., Young, K., Davies, L., El-Haj, M., Knight, D. (2024). “Welsh Automatic Text Summarisation.” Language and Technology in Wales: Volume II, Bangor University.
Phillips, J., El-Haj, M., Hall, T. (2024). “Metric-Oriented Pretraining of Neural Source Code Summarisation Transformers to Enable more Secure Software Development.” 1st International Conference on Natural Language Processing and Artificial Intelligence for Cyber Security (NLPAICS), Lancaster, UK.
El-Haj, M., Saad Ezzini. (2024). “The Multilingual Corpus of World’s Constitutions (MCWC).” 6th Workshop on Open-Source Arabic Corpora and Processing Tools, LREC-COLING 2024, Turin, Italy.
El-Haj, M., Sultan Almujaiwel, Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov. (2024). “DARES: Dataset for Arabic Readability Estimation of School Materials.” DeTermIt! Workshop, LREC-COLING 2024, Turin, Italy.
Daniel F. O. Onah, Elaine Ling Ling Pang, El-Haj, M. (2022). “A Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling.” IEEE International Conference on Big Data, Osaka, Japan.
El-Haj, M., Paul Rayson, Nadhem Zmandar. (2021). “Multilingual Financial Word Embeddings for Arabic, English, and French.” IEEE International Conference on Big Data.
Parth Saxena, El-Haj, M. (2023). “Exploring Abstractive Text Summarisation for Podcasts: A Comparative Study of BART and T5 Models.” Recent Advances in Natural Language Processing (RANLP), Varna, Bulgaria.
Nadhem Zmandar, El-Haj, M., Paul Rayson. (2023). “FinAraT5: A Text-to-Text Model for Financial Arabic Text Understanding and Generation.” 4th Conference on Language, Data and Knowledge (LDK), Vienna, Austria.
Chukwuneke, C. I., Ezeani, I., Rayson, P., El-Haj, M. (2023). “IgboNER: Expanding Named Entity Recognition Datasets via Projection.” AfricaNLP Workshop, ICLR 2023, Kigali, Rwanda.
Ignatius Ezeani, El-Haj, M., Jonathan Morris, Dawn Knight. (2022). “Introducing the Welsh Text Summarisation Dataset and Baseline Systems.” LREC 2022, Marseille, France.
El-Haj, M., Elvis de Souza, Nouran Khallaf, Paul Rayson, Nizar Habash. (2022). “AraSAS: The Open Source Arabic Semantic Tagger.” OSACT Workshop, LREC 2022, Marseille, France.

2012: Tiến sĩ Khoa học Máy tính, Đại học Essex, Vương quốc Anh
2021: Học bổng của Học viện Giáo dục Đại học (FHEA), Advance HE, Vương quốc Anh
2008: Thạc sĩ Hệ thống Thông tin, Đại học Jordan, Jordan
2005: Cử nhân Hệ thống Thông tin Máy tính, Đại học Jordan, Jordan

GIẢI THƯỞNG VÀ VÂN DỰNG NỔI BẬT

2023: Giải Thưởng Thuyết Trình Xuất Sắc, LITHME Training School, Kosovo
2021: Học bổng của Học viện Giáo dục Đại học (FHEA), Advance HE, Vương quốc Anh
2016: Đội Thắng Giải Công Cụ Tiếp Cận Người Dùng Tốt Nhất, Sự kiện BBC NewsHack, London, Vương quốc Anh
2012: Học bổng Tiến sĩ Một Phần, Đại học Essex, Vương quốc Anh
2011: Học bổng Toàn phần cho Thực tập, Viện Tin học Quốc gia, Tokyo, Nhật Bản
2009: Giải Thưởng Bài Báo Xuất Sắc, Hội nghị Ngôn ngữ và Công nghệ lần thứ 4 (LTC), Poznan, Ba Lan

CÁC DỰ ÁN VÀ GRANT ĐƯỢC TÀI TRỢ NỔI BẬT

2025: $10,160 – Sử Dụng NLP để Giám Sát Nứt Ống Nước (Nhà tài trợ: South West Water, Vương quốc Anh, Vai trò: Tư vấn viên)
2024: $10,160 – Mô Hình Ngôn Ngữ Welsh Thí Điểm (Nhà tài trợ: Chính phủ Wales, Vai trò: Điều tra viên chính)
2024: $12,700 – DigiGrid cho Tài Nguyên Ngôn Ngữ Welsh (Nhà tài trợ: Chính phủ Wales, Vai trò: Điều tra viên chính)
2024: $12,700 – Quỹ Catalyst để Phát Triển Nghiên Cứu NLP Celtic (Nhà tài trợ: Khoa Khoa học và Công nghệ, Đại học Lancaster, Vai trò: Điều tra viên chính)
2024: $127,000 – FreeTxt: Hỗ Trợ Phân Tích Dữ Liệu Khảo Sát và Câu Hỏi Bằng Văn Bản Miễn Phí Song Ngữ (Nhà tài trợ: AHRC, Vai trò: Đồng Điều tra viên)
2023: $54,102 – Talent Track Ứng Dụng Kỹ Thuật NLP và Kinh Tế Lượng (Nhà tài trợ: SAMF, Đan Mạch, Vai trò: Tư vấn viên)
2023: $38,100 – Canadian Annual Reports Extractor (CARE) (Nhà tài trợ: Mitacs, HEC Montreal, Đại học Waterloo, CPA Canada, Vai trò: Điều tra viên chính)
2022: $114,300 – Sử Dụng Word Embeddings để Tạo Ra Từ Điển Đồng Nghĩa của Tiếng Welsh Đương Đại (Nhà tài trợ: Chính phủ Wales, Vai trò: Điều tra viên chính)
2022: $114,300 – Welsh Summary Creator (WSC) (Nhà tài trợ: Chính phủ Wales, Vai trò: Điều tra viên chính)
2021: $46,990 – CLARA-Fin: Đọc Hiểu và Đơn Giản Hóa Văn Bản Tài Chính (Nhà tài trợ: Cơ quan Nghiên cứu Tây Ban Nha, Vai trò: Tư vấn viên)
2021: $27,940 – Đánh Giá Các Công Bố Doanh Nghiệp Theo Tiêu Chuẩn Kế Toán 15 (Nhà tài trợ: IAAER/KPMG, Vai trò: Điều tra viên chính)
2021: $7,620 – Arabic USAS Semantic Tagger (AraSAS) (Nhà tài trợ: Quỹ Khuyến Khích Nghiên Cứu, Đại học Zayed, UAE, Vai trò: Điều tra viên chính)
2018: $44,450 – FinT-esp: Các Văn Bản Tài Chính Bằng Tiếng Tây Ban Nha (Nhà tài trợ: Cơ quan Nghiên cứu Tây Ban Nha, Vai trò: Tư vấn viên)

PhD Students

Gigi Alshahrani: Scope For Using Machine Learning to Detect Offensive Content in Different Arabic Dialects
Salim Al Mandhari: Arabic Automatic Readability Assessment
Damith Dola Mullage: Deep Learning Models to Identify Ethical Misconducts in Legal Documents
Chiamaka Chukwuneke: Named Entity Recognition for African Languages: A Focus on Igbo
Jesse Phillips: The Automated Generation of Meaningful and Coherent Source Code Documentation Using Natural Language Processing Techniques
Dr Nadhem Zmandar: Multilingual Financial Summarization

PhD External Examiner for:

Dr Fatimah Al-Qahtani, King’s College London (KCL), England, UK
Dr Taghreed Tarmom, University of Leeds, England, UK
Dr Alaa Alqahtani, University of Birmingham, England, UK
Dr Chatrine Qwaider, University of Gothenburg, Göteborg, Sweden
Dr Mohammed Hamed Altamimi, Bangor University, Wales, UK
Dr Maher Itani, Sheffield Hallam University, England, UK

PhD Internal Examiner for:

Dr Matthew Coole, Lancaster University, England, UK
Dr Edward Dearden, Lancaster University, England, UK
Dr Lama Alsudias, Lancaster University, England, UK
Dr Ronghui Mu, Lancaster University, England, UK (Chair)

PGS.TS. Mo El-Haj

Viện Kỹ Thuật Và Khoa Học Máy Tính

Associate Professor (Reader), Chương trình Khoa học Dữ liệu

Giám đốc Nhóm nghiên cứu NPL @ VinUniversity

Giới thiệu

Chuyên môn nghiên cứu

Chuyên môn giảng dạy

Các ấn phẩm tiêu biểu

Trình độ giáo dục

Thành tích & giảI thưởng

Các trang web liên quan

Các hoạt động khác

PhD Students

PhD External Examiner for:

PhD Internal Examiner for: