ĐĂNG NHẬP TÀI KHOẢN
Ghi nhớ mật khẩu
Đăng ký | Quên mật khẩu
HỖ TRỢ TRỰC TUYẾN
0936 498 081 / 0936 498 081
Hỗ trợ 01
Hỗ trợ 02
HỖ TRỢ THANH TOÁN
Thanh toán an toàn với Bảo Kim !
 Tìm kiếm văn bản tiếng Việt
Trang chủ » Đồ án - Luận văn tốt nghiệp » Xã hội và Nhân văn

" Tìm kiếm văn bản tiếng Việt "

· Phí: 30.000 đ
· Danh mục: Xã hội và Nhân văn · Dung lượng: 510 Kb
· Mã tài liệu: LGD1001 · Loại tài liệu:  Word
· Đăng ngày: 25/09/2010 · Số lần tải: 1 lượt
· Tên tài liệu:

Tìm kiếm văn bản tiếng Việt

Thông tin tài liệu

Tìm kiếm văn bản tiếng Việt

LỜI MỞ ĐẦU
Chúng ta biết rằng nguồn tài nguyên được lưu trữ dưới dạng dữ liệu văn bản là rất rộng lớn và giàu thông tin nhưng việc khai thác nguồn dữ liệu này vẫn chưa đạt hiệu quả cao. Hiện nay, trên thế giới đã có khá nhiều hệ thống thực hiện công việc này theo những phương pháp khác nhau tuy chưa đạt được hiệu quả tối ưu nhưng cũng phần nào đáp ứng được các yêu cầu thông tin của người sử dụng. Mỗi phương pháp khác nhau đều thể hiện được những điểm mạnh riêng của nó và việc lựa chọn phương pháp nào phụ thuộc vào những mục đích và tiêu chí riêng đặt ra.
Hiện nay, sự gia tăng của các phương tiện truyền thông trong việc lưu trữ và sự bùng nổ của các cơ sở dữ liệu lớn làm cho việc tìm kiếm văn bản càng trở nên quan trọng hơn bao giờ hết. Chính vì vậy, việc lựa chọn phương pháp tìm kiếm văn bản giúp cho người sử dụng có thể tìm kiếm được những thông tin cần thiết một cách chính xác hiệu quả từ nguồn tài liệu văn bản rộng lớn phục vụ cho các mục đích trong công việc cũng như trong đời sống là rất cần thiết. Nhận thức được tầm quan trọng của việc khai thác dữ liệu văn bản, em đã lựa chọn đề tài: “Tìm kiếm văn bản tiếng Việt”.
 Với đề tài này em đi sâu vào nghiên cứu việc tìm kiếm văn bản tiếng Việt sử dụng lý thuyết tập thô tập thô dung sai (Tolerance Rough Set Model). Đây cũng là một trong những phương pháp rất hiệu quả cho mục đích khai phá dữ liệu cũng như tìm kiếm văn bản tiếng Việt vì nó đã phần nào giải quyết được vấn đề đồng nghĩa trong tiếng Việt mà từ trước cho tới nay vẫn chưa có một biện pháp nào giải quyết tốt cho vấn đề đồng nghĩa. Đây là một đề tài tương đối rộng và phức tạp nhưng thời gian nghiên cứu không nhiều, sự hiểu biết trong lĩnh vực này còn bị hạn chế nên đồ án tốt nghiệp này sẽ không tránh khỏi những thiếu sót. Em rất mong nhận được sự đóng góp, chỉ bảo thêm của thầy cô và các bạn đọc để đồ án này hoàn thiện và hữu ích hơn trong thời gian tới.
MỤC LỤC
LỜI MỞ ĐẦU
PHẦN I. CƠ SỞ LÝ THUYẾT
I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT
1.Tính chính xác của văn bản tiếng Việt
2. Từ tiếng Việt
2.1. Từ đơn_từ ghép.
2.2. Từ loại
2.3. Dùng từ cấu tạo ngữ
3. Câu tiếng Việt
3.1 Câu đơn
4. Các đặc điểm của tiếng Việt
4.1 Đặc điểm chính tả
4.2 Vấn đề đa nghĩa và nhập nhằng trong ngôn ngữ
II. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN
1. Biểu diễn văn bản
Sinh từ ( Term Generation)
Lọc từ (Term Filter)
2. Các kỹ thuật khai phá
2.1. Khai phá các luật kết hợp (Association Rules)
2.2. Lập chỉ mục tự động (Auto indexing)
3. Phân nhóm văn bản
III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN
1. Tìm hiểu chung về các hệ thống khai thác thông tin
2. Tìm kiếm văn bản theo mô hình không gian vectơ
2.1 Độ chính xác và độ truy hồi
2.2 Bảng tần xuất.
2.3 Chỉ dẫn ngữ nghĩa tiềm ẩn (Latent Sematic Indexing LSI)
2.4.Tìm kiếm tài liệu dùng SVD
2.5. TV_Tree
2.5.1. Thiết lập TV_Tree
2.5.2.Chèn vào TV_Tree
2.5.3.Tìm kiếm trên TV_Tree
3. Tìm kiếm văn bản theo mô hình tập thô dung sai
3.1 Khái niệm tập thô và không gian dung sai
3.2 Mô hình tập thô dung sai (TRSM) trong việc khai thác thông tin
3.2.1 Không gian dung sai:
3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM
3.3 Hàm xếp hạng chính và xếp hạng phụ trong việc đánh giá mức độ chính xác của tài liệu.
PHẦN II. PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM
I. PHƯƠNG ÁN GIẢI QUYẾT
II. CÀI ĐẶT THỬ NGHIỆM
1. TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT
1.1 Tổ chức từ điển
1.2. Tổ chức cơ sở dữ liệu văn bản
1.3. Xác định các từ khoá trong văn bản
2. Xử lý dữ liệu để phục vụ cho mô hình tìm kiếm văn bản bằng phương pháp tập thô dung sai.
3. Tìm kiếm văn bản sử dụng mô hình tập thô dung sai
TÀI LIỆU THAM KHẢO.
 
CÁC TÀI LIỆU LIÊN QUAN
Từ khóa:  Mon van ban hanh chinh nha nuoc,  Chuc nang của van ban quan ly hanh chinh nha nươc,  Khai niem van ban bao chi,  Ly do chon de tai ve ngon ngu don lap tieng viet lop 1,  Hình thức, ngôn ngữ sử dụng của văn bản hành chính,  Kho tu vung tieng viet,  Văn bản pháp luật về cổ phần hóa chi nhánh công ty,  So do quy trinh xay dung ,ban hanh van ban quy pham phap luat,  Từ đơn trong tiếng việt,  Dac trung cua van ban bao chi,  Lỗi lặp từ trong tiếng việt,  Thể thức văn bản dung cho huyen,  Cac nguyen tac trong su dungvan ban,  Cong tac quan ly van ban hanh chinh hien nay,  Van ban hanh chinh hien nay,  Mot so giai phap nang cao chat luong soan thao van ban,  Những yêu cầu về yếu tố và thể thức khi ban hành văn bản,  Ngon ngu soan thao van ban,  Từ điển tiếng việt bỏ ngỏ,  Thuc tien xay dung va ban hanh van ban quan ly nha nuoc hien nay