FANDOM


Ngữ liệu Wikipedia tiếng Việt vào ngày 01.01.2014, đã loại bỏ các ký tự đặc biệt và tách từ tố. Sau khi giải nén, mỗi tệp gồm nhiều tài liệu viết liền nhau không có ký hiệu đánh dấu. Mỗi dòng chứa một câu, không có dòng trống. Trong câu, các từ tố (ví dụ: âm tiết, số, dấu câu) viết cách nhau ít nhất một khoảng trắng.

Tải xuống ở đây.

Phương pháp

  1. Tải ngữ liệu Wikipedia tiếng Việt chưa tách từ tố.
  2. Xóa ký hiệu đặc biệt (sed '/^<.*>/d'), "magic word" (sed 's/__[[:alpha:]]\+__//g;')
  3. Phát hiện câu theo mô tả ở đây.
  4. Xóa dòng trống (sed '/^\s*$/d')

Vấn đề đã biết

Xem ngữ liệu Wikipedia tiếng Việt chưa tách từ tố.

Tác giả

Lê Ngọc Minh <ngocminh.oss@gmail.com>

Bản quyền

CC BY-SA

Ad blocker interference detected!


Wikia is a free-to-use site that makes money from advertising. We have a modified experience for viewers using ad blockers

Wikia is not accessible if you’ve made further modifications. Remove the custom ad blocker rule(s) and the page will load as expected.