- Trang này chỉ liệt kê một số tài nguyên quan trọng, để xem đầy đủ mời bạn xem thể loại Tài nguyên.
Ngữ liệu tiếng Việt[]
- [Danh sách từ tiếng Việt]
- Wikipedia tiếng Việt (chưa tách từ tố, đã tách từ tố)
- Bộ câu đã tách từ của JVnSegmenter (~7,800 câu)
- Từ điển, treebank và ngữ liệu song ngữ từ dự án VLSP
- Dữ liệu của VLSP Campaign 2013 (ngữ liệu VLSP được bổ sung 12,000 câu được tách từ, gán nhãn từ loại và một số câu đã tách từ tố, xem thêm)
- Ngữ liệu Vietlex (chỉ sử dụng được trực tuyến)
- VietnameseWAC (chỉ sử dụng được trực tuyến)
- Các bộ ngữ liệu của tác giả Lưu Tuấn Anh (nguồn: các báo điện tử, vnthuquan.net; chưa tách từ tố)
- 200 Cụm văn bản tiếng Việt dùng cho tóm tắt đa văn bản