Xem mẫu

  1. TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN THUYẾT MINH ĐỀ TÀI NCKH CẤP TRƯỜNG ĐỀ TÀI NGHIÊN CỨU VỀ THUẬT TOÁN PHÂN LỚP SỬ DỤNG QUÁ TRÌNH HỌC MÁY BÁN GIÁM SÁT, ỨNG DỤNG TRONG VIỆC PHÂN LỚP TRANG WEB Chủ nhiệm đề tài: ThS. Lê Hoàng Dương Thành viên tham gia: ThS. Ngô Quốc Vinh Hải Phòng, tháng 4/2016
  2. MỤC LỤC MỞ ĐẦU ............................................................................................................... 1 1. Tính cấp thiết của vấn đề nghiên cứu ............................................................ 1 2. Tổng quan về tình hình nghiên cứu thuộc lĩnh vực đề tài ............................. 1 3. Mục tiêu, đối tượng, phạm vi nghiên cứu ...................................................... 2 4. Phương pháp nghiên cứu, kết cấu của công trình nghiên cứu ....................... 3 5. Kết quả đạt được của đề tài ............................................................................ 3 CHƯƠNG 1 TỔNG QUAN VỀ VIỆC PHÂN LỚP SỬ DỤNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT ............................................................................. 4 1.1. Tổng quan về phân lớp dữ liệu. .................................................................. 4 1.1.1. Tổng quan về bài toán phân lớp dữ liệu ............................................... 4 1.1.2. Tổng quan về quá trình phân lớp dữ liệu .............................................. 5 1.2. Tổng quan về phân lớp dữ liệu văn bản ...................................................... 6 1.2.1. Thực trạng của vấn đề. .......................................................................... 6 1.2.2. Sử dụng mô hình vector biểu diễn văn bản .......................................... 7 1.2.3. Tổng quan về phương pháp phân lớp văn bản.................................... 11 1.2.4. Ứng dụng của việc phân lớp dữ liệu văn bản ..................................... 12 1.2.5. Quá trình phân lớp dữ liệu văn bản: ................................................... 12 1.2.6. Đánh giá máy phân lớp dữ liệu văn bản ............................................. 14 1.2.7. Những yếu tố ảnh hưởng đến quá trình phân lớp. .............................. 15 1.3. Các thuật toán học máy ứng dụng trong phân lớp .................................... 15 1.3.1. Phương pháp học có giám sát ............................................................. 15 1.3.2. Thuật toán phân lớp dữ liệu theo phương pháp học bán giám sát ...... 18 i
  3. CHƯƠNG 2 BÀI TOÁN PHÂN LỚP ÁP DỤNG SVM VÀ PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT SVM ............................................................................. 21 2.1. Máy hỗ trợ vector – Support Vector Machine .......................................... 21 2.1.1. Giới thiệu về thuật toán SVM ............................................................. 22 2.1.2. Huấn luyện SVM ................................................................................ 23 2.1.3. Ưu điểm của SVM trong phân lớp văn bản ........................................ 24 2.2. Bán giám sát SVM và phân lớp trang Web .............................................. 26 2.2.1. Giới thiệu về bán giám sát SVM......................................................... 26 2.2.2. Phân lớp trang Web sử dụng bán giám sát SVM ................................ 27 CHƯƠNG 3 KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ ................................ 30 3.1. Giới thiệu về phần mềm SVMlin ............................................................. 30 3.2. Sử dụng phần mềm và kết quả đánh giá ................................................... 31 KẾT LUẬN ......................................................................................................... 34 TÀI LIỆU THAM KHẢO ................................................................................... 35 ii
  4. DANH SÁCH HÌNH ẢNH Số hình Tên hình Trang 1.1 Mô hình tổng quan về bài toán phân lớp 5 1.2 Ví dụ về việc biểu diễn văn bản bởi vector 8 đặc trưng 1.3 Sơ đồ biểu diễn quá trình phân lớp dữ liệu 13 văn bản 1.4 Mặt siêu phẳng h phân các điểm thành 2 lớp 18 + và - với khoảng cách biên lớn nhất. Các điểm gần mặt siêu phẳng h nhất là các vector hỗ trợ 1.5 Thuật toán Self training 19 1.6 Thuật toán Co training 20 iii
  5. DANH SÁCH THUẬT NGỮ, CHỮ VIẾT TẮT Chữ viết tắt Trang SVM: Support Vector Machine 1 VC: Vapnik-Chervonenkis 21 S3VM: Semi Supervised Support Vector Machine 26 iv
  6. MỞ ĐẦU 1. Tính cấp thiết của vấn đề nghiên cứu Với xu hướng phát triển hiện tại, khối lượng dữ liệu trong cuộc sống ngày càng lớn dẫn đến việc vai trò của phân lớp dữ liệu cũng ngày càng quan trọng hơn, đây có thể được đánh giá là một trong các vấn đề bức thiết trong ngành xử lý dữ liệu văn bản. Một trong các yêu cầu thiết yếu cần được đưa ra là cải thiện hiệu suất của thuật toán thực hiện việc phân lớp, gia tăng giá trị độ đo hồi tưởng, cũng như tính chính xác của phương pháp. Tuy nhiên trong thực tế, nguồn dữ liệu được thiết lập nhãn trước không phải lúc nào cũng được đáp ứng dẫn đến việc phải xây dựng các phương pháp phân lớp sử dụng tập dữ liệu chưa gán nhãn. Để có thể thỏa mãn được cả hai yêu cầu trình bày phía trên phương pháp phân lớp bán giám sát tỏ ra tương đối hiệu quả. Các phương pháp phân lớp này tận dụng được các nguồn dữ liệu chưa được đánh nhãn rất phong phú và đồng thời cũng tận dụng được hiệu quả một số lượng nhỏ các dữ liệu đã được thiết lập nhãn sẵn. Một trong các phương pháp được sử dụng và đánh giá tương đối tốt trong thời gian qua để sử dụng trong các công việc nhận dạng hay phân loại là phương pháp SVM - bộ phân loại máy hỗ trợ vector (Support Vector Machine). Các nghiên cứu đã được công bố đã chứng minh về hiệu suất phân loại văn bản khá tốt của phương pháp SVM. 2. Tổng quan về tình hình nghiên cứu thuộc lĩnh vực đề tài Trong lĩnh vực khai phá dữ liệu, các phương pháp phân lớp văn bản đã dựa trên những phương pháp quyết định như quyết định Bayes, cây quyết định, K-người láng giềng gần nhất, …. Những phương pháp này đã cho kết quả chấp nhận được và được sử dụng nhiều trong thực tế. Trong những năm gần đây, phương pháp phân lớp sử dụng quá trình học máy bán giám sát đang được quan tâm và sử dụng nhiều trong lĩnh vực nhận dạng, phân lớp. Nhận thấy được tính mới trong vấn đề này nên tác giả lựa chọn đề tài “Nghiên cứu về thuật toán phân lớp sử dụng quá trình học máy bán giám sát, Trang 1
  7. ứng dụng trong việc phân lớp trang Web” để sử dụng cho việc nghiên cứu của mình. 3. Mục tiêu, đối tượng, phạm vi nghiên cứu Những năm gần đây, thế giới chứng kiến sự phát triển bùng nổ của khoa học nói chung và lĩnh vực công nghệ thông tin nói riêng. Chính điều này đã làm gia tăng các hình thức trao đổi thông tin thông qua hệ thống Internet một cách chóng mặt, có thể kể đến như thư viện điện tử, báo điện tử… Vì lý do này mà lượng dữ liệu văn bản trên Internet cũng ngày càng tăng theo một cách đáng kể, kèm theo đó là tốc độ của thông tin thay đổi cũng rất nhanh chóng. Với lượng dữ liệu thông tin càng càng lớn, một trong những yêu cầu bức thiết được lập ra là làm cách nào có thể tổ chức và khai thác được các thông tin một cách hiệu quả. Để giải quyết được các yêu cầu trên thì bài toán phân lớp là một trong những giải pháp thích hợp nhất. Tuy nhiên trong thực tế, lượng thông tin lại quá lớn để có thể phân lớp một cách thủ công và các thực hiện phân lớp bằng các phương pháp đơn giản thủ công là điều không khả thi. Một chương trình máy tính thực hiện phân lớp các dữ liệu văn bản một cách tự động chính là chìa khóa để giải quyết vấn đề này. Trong thực tế, các khó khăn mà chúng ta thường phải đối mặt khi xử lý các bài toán phân lớp tự động là làm thế nào để có thể tạo ra được một bộ phân lớp có độ tin cậy cao khi số lượng dữ liệu được gán nhãn sẵn không có sẵn. Các bộ dữ liệu được thiết lập nhãn sẵn này thường không có nhiều vì để có được chúng đòi hỏi phải tốn nhiều công sức cũng như thời gian để xây dựng thiết lập nhãn. Điều này dẫn đến việc phải có một phương pháp học không đòi hỏi nhiều dữ liệu thiết lập nhãn sẵn và đồng thời tận dụng được hiệu quả các nguồn dữ liệu chưa thiết lập nhãn có rất nhiều trong thực tế, phương pháp học được lựa chọn để nghiên cứu ở đây là phương pháp học bán giám sát. Thực chất phương pháp học bán giám sát có thể được xem là cách học sử dụng dữ liệu chứa trong cả bộ dữ liệu chưa được thiết lập nhãn Trang 2
  8. và bộ dữ liệu đã được thiết lập nhãn. Vì ưu điểm tiện lợi của phương pháp này nên nó được áp dụng khá rộng rãi. Vì lý do trên, nghiên cứu tập trung vào việc trình bày về bài toán phân lớp dữ liệu sử dụng phương pháp học bán giám sát và việc áp dụng phương pháp học bán giám sát sử dụng máy hỗ trợ vector vào việc phân lớp dữ liệu trên các trang Web. Mục tiêu chính của đề tài bao gồm: + Nghiên cứu thuật toán phân lớp sử dụng quá trình học máy bán giám sát. + Ứng dụng thuật toán trong việc phân lớp trang Web. 4. Phương pháp nghiên cứu, kết cấu của công trình nghiên cứu Nghiên cứu định tính: Thực hiện tham khảo các bài báo khoa học liên quan đến các thuật toán học máy và học máy bán giám sát cũng như tham khảo các công trình đã công bố về lĩnh vực này. Nghiên cứu định lượng: Cài đặt thuật toán, ứng dụng trong việc phân lớp trang Web. Đánh giá kết quả đạt được đồng thời hiệu chỉnh thuật toán và hệ thống để đạt được kết quả tốt nhất. Nghiên cứu được trình bày trong 3 chương. Cấu trúc cụ thể như sau: Chương 1: Tổng quan về việc phân lớp sử dụng phương pháp học bán giám sát Chương 2: Bài toán phân lớp áp dụng SVM và phương pháp học bán giám sát SVM Chương 3: Kết quả thử nghiệm và đánh giá. 5. Kết quả đạt được của đề tài Kết quả đạt được của đề tài: là báo cáo về kết quả nghiên cứu thuật toán phân lớp sử dụng quá trình học máy bán giám sát, và kết quả của việc ứng dụng thuật toán trong việc phân lớp trang Web. Trang 3
  9. Đối tượng phục vụ: kết quả của nghiên cứu sẽ là tài liệu phục vụ cho việc tham khảo và nghiên cứu của các đối tượng trong lĩnh vực Khai phá dữ liệu. CHƯƠNG 1 TỔNG QUAN VỀ VIỆC PHÂN LỚP SỬ DỤNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT 1.1. Tổng quan về phân lớp dữ liệu. 1.1.1. Tổng quan về bài toán phân lớp dữ liệu Bài toán phân lớp dữ liệu là quá trình phân lớp một đối tượng dữ liệu cụ thể vào một hoặc nhiều lớp dữ liệu đã xác định trước thông qua một mô hình phân lớp được xây dựng từ trước dựa trên một tập đối tượng dữ liệu thiết lập nhãn sẵn từ trước hay chúng ta vẫn thường gọi là tập huấn luyện. Quá trình phân lớp dữ liệu còn có thể được gọi với một tên khác là quá trình thiết lập nhãn cho các đối tượng dữ liệu. Nhiệm vụ chính của việc phân lớp dữ liệu là tạo ra mô hình phân lớp để khi có một đối tượng dữ liệu mới được đưa ra thì mô hình phân lớp dữ liệu sẽ xếp đối tượng dữ liệu đó vào lớp nào hay có thể coi là thiết lập nhãn cho đối tượng dữ liệu này. Trong thực tế phân lớp dữ liệu có rất nhiều bài các bài toán khác nhau như bài toán phân lớp nhị phân, bài toán phân lớp đa trị,…. Bài toán phân lớp nhị phân còn được hiểu là phân lớp đối tượng dữ liệu vào một trong hai lớp cho trước khác nhau thông qua việc xem xét đối tượng dữ liệu đó có hay không có các đặc tính phân loại được đặt ra theo quy ước của mô hình phân lớp. Bài toán phân lớp đa trị là bài toán phân lớp mà trong đó mỗi đối tượng dữ liệu trong tập dữ liệu được gán nhãn cũng như các đối tượng dữ liệu chưa được gán nhãn sau khi được phân lớp có thể được xếp vào hai lớp trở lên. Trang 4
  10. Tiếp theo đây, nghiên cứu sẽ trình bày tổng quan về quá trình phân lớp dữ liệu và phương pháp phân lớp dữ liệu. 1.1.2. Tổng quan về quá trình phân lớp dữ liệu Hình 1.1 Mô hình tổng quan về bài toán phân lớp Như hình trên thể hiện quá trình phân lớp dữ liệu được thực hiện qua hai bước chính: Bước 1: Thiết lập mô hình phân lớp: Mô hình phân lớp được tạo nên dựa trên việc phân tích các đối tượng dữ liệu trong tập huấn luyện. Các lớp được gán nhãn của tập dữ liệu được gán nhãn này được xác định thủ công từ trước, vì vậy phương pháp học này còn có thể được gọi với tên khác là phương pháp học có giám sát (supervised learning). Tại bước này, độ chính xác của mô hình cần được tính đến. Nếu độ chính xác của mô hình là chấp nhận được mô hình phân lớp sẽ được dùng để xác định nhãn cho các đối tượng chưa được gán nhãn. Trong quá trình đánh giá mô hình phân lớp, độ đo sẽ được sử dụng để đánh giá độ chất lượng của các tập phân lớp. Trong thực tế có nhiều phương pháp phân lớp dữ liệu để giải quyết các bài toán phân lớp tùy thuộc vào cách tạo ra mô hình phân lớp. Có thể kể đến một số phương pháp như Bayes, cây quyết định, SVM, K láng giềng gần nhất, .... Các Trang 5
  11. phương pháp phân lớp phân biệt nhau thông qua bộ| phân lớp. Bộ phân lớp còn được gọi với tên gọi khác là thuật toán phân lớp. Bước 2: Tiến hành phân lớp sử dụng mô hình phân lớp tạo ở bước 1. Thuật toán phân lớp có thể coi là ánh xạ từ miền dữ liệu sẵn có sang một miền giá trị cụ thể của nhãn lớp, dựa trên thuộc tính của các đối tượng dữ liệu. 1.2. Tổng quan về phân lớp dữ liệu văn bản 1.2.1. Thực trạng của vấn đề. Các phương thức giao dịch sử dụng giấy tờ trong thời đại hiện nay thì phương thức số dần đang thay thế các phương thức giao dịch truyền thống. Cụ thể việc số hoá các giấy tờ có thể hiểu như việc chuyển các dữ liệu dạng giấy tờ sang các định dạng số được lưu trữ trên máy tính hoặc truyền tải thông qua môi trường internet. Lượng dữ liệu văn bản được lưu trữ trực tuyến hiện nay đang gia tăng một cách chóng mặt do có nhiều ưu điểm như tiện dụng, gọn nhẹ và sự lưu trữ ổn định lâu dài, dễ dàng hiệu chỉnh cũng như truyền gửi. Song song với sự gia tăng số lượng văn bản thì nhu cầu khai thác tìm kiếm các dữ liệu văn bản cũng đang trở thành một nhu cầu thiết yếu trong thời điểm hiện tại. Trong cuộc sống hàng ngày, việc phân lớp các văn bản đa phần được thực hiện thủ công. Và dễ thấy được cách thức phân loại này tốn kém về mặt thời gian cũng như công sức của con người vì các văn bản rất lớn, để thực hiện phân lớp các văn bản theo cách thức này về lâu dài là một vấn đề không khả thi. Từ đó chúng ta có thể nhận thấy việc phân lớp văn bản tự động là một vấn đề bức thiết cần phải được giải quyết. Câu hỏi được đặt ra ở đây là phân lớp văn bản là gì? Phân lớp văn bản có thể được hiểu là việc phân lớp dữ liệu áp dụng đối với các dữ liệu văn bản, hay phân một văn bản vào một hay nhiều lớp văn bản thông qua một mô hình phân lớp được xây dựng dựa trên một tập hợp các văn bản thiết lập nhãn từ trước. Trang 6
  12. Phân lớp dữ liệu văn bản hiện nay đang là một trong các lĩnh vực được quan tâm hàng đầu và hiện đã và đang được đầu tư nghiên cứu tương đối nhiều trong những năm gần đây trên khắp thế giới. 1.2.2. Sử dụng mô hình vector biểu diễn văn bản Một trong những cách phổ biến được sử dụng để biểu diễn dữ liệu văn bản là phương pháp biểu diễn bằng mô hình vector, mỗi văn bản sẽ được biểu diễn thông qua một vector trọng số. Cụ thể phương pháp này sẽ coi mỗi một đối tượng dữ liệu văn bản Di được biểu diễn dưới dạng 𝐷𝑖 = (→, 𝑖), trong đó chỉ số i 𝑑𝑖 dùng để nhận diện văn bản này và → là vector đặc trưng biểu diễn cho văn bản 𝑑𝑖 Di . Cụ thể trong vector này: →=(wi1,wi2,…,win), với n là số luợng đặc trưng được 𝑑𝑖 trích chọn của văn bản, wij là trọng số của đặc trưng thứ j của văn bản Di, j∈{1,2,...,n}. Đối với việc chuyển đổi văn bản sang biểu diễn dưới dạng vector đặc trưng, thì vấn đề cần quan tâm là việc lựa chọn đặc trưng nào và bao nhiêu đặc trưng, phương thức chọn ra sao?  Các đặc trưng trong vector biểu diễn văn bản  Số chiều của không gian vector đặc trưng biểu diễn văn bản thường lớn và phụ thuộc vào lượng thông tin trong các văn bản.  Các đặc trưng trong vector biểu diễn của văn bản thường độc lập nhau.  Các đặc trưng rời rạc: vector đặc trưng di có thể có nhiều trọng số đặc trưng bằng 0 do có nhiều đặc trưng không xuất hiện trong văn bản di, tuy vậy nếu đơn thuần chỉ dùng cách tiếp cận sử dụng bộ giá trị 0, 1 thì kết quả phân lớp sẽ bị hạn chế là do có thể có các đặc trưng không có trong văn bản đang xét nhưng trong văn bản đang xét lại có nội dung có ý nghĩa tương đồng với đặc trưng bị bỏ qua này, do điều này chúng ta có thể lựa chọn cách tiếp cận khác là không sử dụng bộ số 0, 1 mà sử dụng giá trị các giá trị thực để phần nào giảm bớt sự rời rạc trong vector đặc trưng biểu diễn văn bản. Trang 7
  13.  Đa số các văn bản có thể được phân loại một cách tuyến tính bằng cách sử dụng các hàm tuyến tính.  Theo đó, số chiều của vector là số lượng các từ xuất hiện trong ít nhất một mẫu dữ liệu đã được thiết lập nhãn. Trước khi thiết lập các trọng số đặc trưng cho các từ khoá phân loại cần thực hiện loại trừ những từ dừng. Từ dừng ở đây được hiểu là các từ thường xuất hiện nhưng không đem lại lợi ích trong việc phân lớp dữ liệu văn bản chẳng hạn như “như vậy”, “tuy”, “là”, “và”, “thì”, “and”, “but”, “the”, “or”, …. thường chúng ta có thể nhận biết các từ dừng có thể kể đến như các trạng từ hoặc liên từ hay giới từ. Chúng ta có thể xem xét ví dụ sau về việc biểu diễn văn bản dưới dạng vector đặc trưng: Hình 1.2 Ví dụ về việc biểu diễn văn bản bởi vector đặc trưng  Biểu diễn dữ liệu văn bản dạng trang Web Về mặt bản chất các trang web thực chất là các siêu văn bản. Ngoài các thành phần dữ liệu văn bản và các thành phần dữ liệu media, trong các trang Web còn chứa các thành phần đặc trưng như các Hyperlink, các tag định dạng Trang 8
  14. HTML và các meta-data. Kết quả của phần lớn nghiên cứu chỉ ra công việc phân lớp Web được cung cấp thông tin chủ yếu nhở các thành phần băn bản trong trang web và được gia tăng hiệu suất nhờ vào những thành phần không phải văn bản. Ở thời điểm hiện tại để biểu diễn một trang Web người ta có thể sử dụng nhiều cách khác nhau, tùy theo mục đích chúng ta có thể lựa chọn các cách thức biểu diễn riêng. Các bộ máy tìm kiếm của các hãng lớn như Google hay Yahoo... đều sử dụng hệ thống từ khóa móc nối thay vì lựa chọn cách biểu diễn sử dụng vector. Các hệ thống văn bản cũ trước đây thường thực hiện các công việc tìm kiếm, biểu diễn, phân lớp... theo các phương pháp dựa trên việc xem trang Web như một văn bản thông thường và biểu diễn văn bản đó bằng vector. Siêu liên kết được sử dụng kết nối các trang Web thể hiện được các mối liên hệ giữa nội dung giữa các trang, Từ đó chúng ta có thể nâng cao hiệu suất của các công việc như phân lớp và tìm kiếm giúp khai thác được các ưu điểm của hyperlink trong các văn bản. Một số nghiên cứu gần đây đã chi ra cách nâng cao hiệu quả thông qua phương pháp bổ sung thêm các từ khoá bằng cách mở rộng thêm các từ khoá mới trong các văn bản lân cận với siêu liên kết. Trong nghiên cứu này sẽ tập trung vào cách biểu diễn trang Web bằng cách sử dụng mô hình vector. Sử dụng các thông tin liên kết với mục đích cải thiện độ chính xác của công việc tìm kiếm và các công việc phân lớp các trang Web bằng cách bổ sung các thông tin về các trang Web láng giềng vào vector đặc trưng biểu diễn cho trang đang được xét. Hiện nay tồn tại bốn cách chính để biểu diễn trang Web dưới dạng vector như sau:  Cách thứ nhất Lưu trữ các từ khóa cùng tần số xuất hiện từ khóa đó trong trang Web được xét. Cách lưu trữ này bỏ qua tất các thông tin khác như vị trí của từ khoá trong Trang 9
  15. trang đang xét cũng như thứ tự của các từ trong trang cùng các thông tin khác như hyperlink. Cách biểu diễn này được cho là phương pháp hiệu quả nhất cho các trường hợp tài liệu đã liên kết độc lập với các nhãn của các lớp nhưng với một số trường hợp đặc biệt khác thì phương pháp lại không tận dụng được tính cân đối của tài liệu siêu liên kết.  Cách thứ hai Móc nối trang được xét tới các trang láng giềng để tạo ra một super document thông qua thông tin liên kết của trang đó. Vector đặc trưng của văn bản gồm thông tin về các từ xuất hiện trong trang trong các trang láng giềng của nó đi kèm với tần số có mặt của các từ đó. Phương pháp này cũng giống như phương pháp trên bỏ qua các thông tin liên quan đén vị trí xuất hiện và thứ tự xuất hiện của các từ khóa. Điểm yếu của phương pháp này là gây phân tán nội dung của trang web đang quan tâm. Tuy vậy với trường hợp biểu diễn cho một tập các trang web tương đồng về nội dung chủ đề thì đây lại là phương pháp tương đối tốt. Tuy nhiên việc các trang web liên kết cùng chủ điểm hiện nay chưa thật sự phổ biến nên phương pháp này ít được lựa chọn.  Cách thứ ba Phương pháp biểu diễn trang web dùng một vector có cấu trúc gồm lớn hơn 2 thành phần. Mỗi thành phần trong vector biểu diễn một tập các trang lân cận với trang được xét. Số chiều của vector cố định nhưng mỗi thành phần của vector đó chỉ biểu diễn cho các từ khóa xuất hiện trong một tập. Phương pháp này khắc phục được tình trạng các từ khóa của trang láng giềng làm loãng nội dung của trang web đang được xét. Nếu thông tin mở rộng trang láng giềng thực sự hữu ích cho công việc phân lớp thì mô hình học vẫn có thể truy cập đến toàn bộ nội dung trong trang láng giềng đó để học.  Cách thứ tư Trang 10
  16. Phương pháp biểu diễn trang web thông qua vector có cấu trúc. Cụ thể các bước thực hiện xây dựng vector gồm các bước như sau: Bước 1: Gán d là bậc cao nhất của các trang trong tập được xét. Bước 2: Thiết lập vector với cấu trúc gồm d + 1 các phần: - Phần 1 biểu diễn chính cho trang Web đang xét. - Phần 2 đến phần thứ d+1 biểu diễn các trang láng giềng của trang được biểu diễn ở phần 1, mỗi trang láng giềng được biểu diễn ở 1 phần riêng rẽ. Từ đó thông qua các cách biểu diễn trang web bằng vector như đã trình bày ở phía trên ta có thể thấy rằng đa phần các phương pháp biểu diễn trang web bằng mô hình vector sẽ kết hợp các thông tin về web đó với các trang láng giềng để có được hiệu suất phân lớp tốt hơn so với hiệu suất của phương pháp biểu diễn trang web bằng mô hình vector lưu thông tin về từ khóa và số lần xuất hiện của nó chỉ trong trang web đang xét. 1.2.3. Tổng quan về phương pháp phân lớp văn bản Hiện nay, có rất nhiều các phương pháp dùng để phân lớp văn bản như phương pháp Bayes, sử dụng cây quyết định, k láng giềng gần nhất hay SVM. Thuật toán học máy thường được sử dụng để xây dựng mô hình phân lớp văn bản một cách tự động. Ngoài ra chúng ta còn có thể kể đến các phương pháp đặc biệt hơn dùng để phân lớp trong một số lĩnh vực. Ví dụ khi mô hình phân loại thấy xuất hiện một cụm từ trong văn bản thì hệ thống sẽ phân văn bản đó vào một lớp nào đó. Trong trường hợp các văn bản có số đặc trưng hơn không nhiều như vậy thì chúng ta đưa ra các phương pháp phân lớp dựa vào nội dung trong văn bản độ phù hợp của văn bản đó với các văn bản trong tập huấn luyện. Trong mô hình học máy được áp dụng, văn bản trong tập huấn luyện đã được gán nhãn trước và mô hình phân loại cần phải tìm cách để trích chọn ra các đặc trưng của các văn bản thuộc mỗi lớp. Trang 11
  17. 1.2.4. Ứng dụng của việc phân lớp dữ liệu văn bản Phân lớp dữ liệu văn bản có vai trò vô cùng quan trọng với công việc tìm kiếm dữ liệu văn bản. Thông qua phân lớp văn bản chúng ta có thể xác định ra được chủ để phân lớp dữ liệu muốn tìm kiếm. Ngoài ra chúng ta có thể kể đến một ứng dụng nữa của việc phân lớp dữ liệu văn bản là việc ứng dụng để lọc văn bản hoặc một phần văn bản chứa những thông tin cần tìm mà không làm mất hay ảnh hưởng tới tính phức tạp ngôn ngữ tự nhiên. Phân lớp dữ liệu văn bản còn có rất nhiều ứng dụng đa dạng khác trong thực tế, điển hình chúng ta có thể kể đến những ứng dụng trích chọn thông tin trên mạng Internet. Có rất nhiều trang có nội dung không lành mạnh hay phản động hoặc đăng những nội dung sau sự thật nhằm tăng lượng người xem, những nội dung này có khả năng lẫn lộn vào kết quả trả về của các bộ máy tìm kiếm thông tin trên mạng hoặc có thể gây phiền toái cho những người dùng internet bằng các email rác. Từ đó chúng ta ngày càng thấy rõ sự cần thiết của việc ứng dụng việc phân lớp văn bản vào việc xây dựng các mô hình lọc thông tin trên mạng internet. Từ đó có thể thấy rằng phân lớp văn bản đã và đang là một trong các công cụ không thể thiếu trong thời đại hiện nay, vì vậy phân lớp dữ liệu văn bản đang là một trong các vấn đề được quan tâm phát triển được hàng đầu với mục đích tạo ra những công cụ hữu ích cho thế giới nói chung và lĩnh vực công nghệ thông tin nói riêng. 1.2.5. Quá trình phân lớp dữ liệu văn bản: Phân lớp dữ liệu văn bản có thể chia làm 4 bước cơ bản sau: Trang 12
  18. Sơ đồ dưới đây thể hiện bộ khung cho việc phân lớp dữ liệu văn bản, trong đó có thể kể đến ba công đoạn chính:  Công đoạn 1: Biểu diễn đối tượng văn bản dưới dạng có cấu trúc, xây dựng tập dữ liệu được gán nhãn.  Công đoạn 2: Dùng các kỹ thuật học máy để tiến hành huấn luyện trên các mẫu vừa được biểu diễn ở công đoạn 1. Thực chất công đoạn 1 tạo ra các vector đầu vào cho công đoạn 2.  Công đoạn 3: Mở rộng các dữ liệu thêm vào được cung cấp bởi người dùng để cải thiện hiệu suất. Trang 13
  19. Hình 1.3 Sơ đồ biểu diễn quá trình phân lớp dữ liệu văn bản 1.2.6. Đánh giá máy phân lớp dữ liệu văn bản Trong thực tế không có một phương pháp phân lớp dữ liệu văn bản nào là tuyệt đối trong mọi hoàn cảnh. Bất cứ một phương pháp phân loại nào cũng đều tồn tại độ sai số. Do đó chỉ ra độ đo để có thể đánh giá chính xác được hiệu suất của mô hình phân lớp sẽ giúp xác định được phương pháp nào là tốt hay không tốt. Có thể đưa ra một số công thức chung để đánh giá hiệu suất của các mô hình. Độ hồi tưởng và độ chính xác, độ và độ đo F1 được sử dụng khá phổ biến trong việc đánh giá độ chính xác của các mô hình phân lớp. Để dễ hiểu hơn, chúng ta có công thức: Trang 14
  20. 1.2.7. Những yếu tố ảnh hưởng đến quá trình phân lớp. Phân lớp dữ liệu văn bản hiện đang có vai trò rất quan trọng trong sự phát triển của toàn thế giới, tùy vào độ phức tạp của từng loại văn bản khả năng thực thi của các mô hình phân lớp sẽ khác nhau. Có 3 yếu tố thiết yếu ảnh hưởng đến kết quả của việc phân lớp có thể kể đến: Tập dữ liệu được thiết lập nhãn trước phải đủ lớn để huấn luyện cho mô hình phân lớp. Có được một tập dữ liệu chuẩn và đủ lớn sẽ giúp cho việc học của mô hình được tốt hơn và đem lại kết quả phân lớp sau này chính xác hơn. Phương pháp tách từ khóa trong văn bản ảnh hưởng tới quá trình biểu diễn văn bản bằng vector vì các phương pháp tách đơn giản thường sẽ gặp vấn đề với những ngôn ngữ khác nhau, do đó việc xây dựng phương pháp tách từ khóa là một yếu tố thiết yếu. Phân lớp dữ liệu văn bản phải sử dụng thuật toán hợp lý về thời gian xử lý gồm: thời gian để huấn luyện và thời gian thực hiện phân lớp, thêm nữa thuật toán sẽ không phân lớp lại toàn bộ tập văn bản khi thêm vào đối tượng dữ liệu văn bản mới mà chỉ thực hiện phân lớp cho đối tượng văn bản mới, ngoài ra thuật toán cần có khả năng giảm nhiễu khi phân lớp dữ liệu văn bản. 1.3. Các thuật toán học máy ứng dụng trong phân lớp 1.3.1. Phương pháp học có giám sát 1.3.1.a. Tổng quan về bài toán học có giám sát Trang 15
nguon tai.lieu . vn