Mình tự convert tự đọc cũng lâu rồi, càng convert thì càng phát hiện lắm lỗi trong VietPhrase.Thêm nữa là một đợt mình gộp nhiều vietphrase trên tàng thư viện với nhau.
Gộp xong mới phát hiện thừa hưởng vô số từ mới và vô số text rác kèm theo. Nay mình hướng dẫn lọc rác bằng regex cho các bạn luôn.Bạn nào biết rồi thì bỏ qua nhé!
Đầu tiên cần có 2 phần mềm :
Notepad++
EmEditor
Khuyến khích dùng Emeditor cho nhanh , notepad ++ edit file từ 400k dòng trở nên rất chậm tuy nhiên notepad ++ có một số cái rất hay mình cần dùng đến.
Mở file VietPhrase bằng Notepad++
Crtl+A.Chọn như hình
Được như các hình sau