admin's blog

Search Engine cho tiếng Việt

Thư viện xử lý tiếng Việt:
-Cần hàm, toUpper, toLower cho 1 string tiếng Việt
-Bỏ dấu 1 string ( Ví dụ Triệu -> Trieu)
-Detect cái loại input tiếng Việt không(Trie^.u -> Triệu) ở unicode
-Detect 1 string hay 1 page có phải tiếng Việt không

Store data:
- Data mới đầu có thể store trong mysql, nhưng sau này nên store ở text file v`i mysql sẽ khong scale
- MỗI url sẽ được gán 1 score (tuong tự page rank)
- url sẽ có url, url raw crawl content và parsed content: title, description, content, link toi nhữNg url khác . Link sẽ có url và anchor text

Web crawling:

Syndicate content