Luận văn thạc sĩ công nghệ thông tin xây dựng công cụ hỗ trợ tối ưu hóa website cho các công cụ tìm kiếm
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
***
Dƣơng Đăng Vinh
XÂY DỰNG CÔNG CỤ HỖ TRỢ TỐI ƢU HÓA WEBSITE CHO CÁC
CÔNG CỤ TÌM KIẾM
Chuyên ngành: Công Nghệ Thông Tin
Mã số: 60480201
Luận văn thạc sĩ Công nghệ thông tin
NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. NGUYỄN ĐỨC THÁI
Đồng Nai – Năm 2013
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “xây dựng công cụ hỗ trợ
tối ƣu hóa website cho các công cụ tìm kiếm” là kết quả của quá trình học tập,
nghiên cứu khoa học độc lập, nghiêm túc.
Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, đƣợc trích dẫn và
có tính kế thừa, phát triển từ các số liệu, tạp chí, các công trình nghiên cứu đã đƣợc
công bố, trên các website.
Các phƣơng pháp nghiên cứu trong luận văn đƣợc rút ra từ cơ sở lý luận và quá
trình nghiên cứu.
Đồng Nai, tháng 9 năm 2013
Dƣơng Đăng Vinh
LỜI CẢM ƠN
Lời đầu tiên tôi xin chân thành gửi lời cảm ơn sâu sắc đến thầy TS. Nguyễn Đức
Thái đã tận tình giúp đỡ tôi trong suốt thời gian học tập vừa qua, đặc biệt là đã hướng
dẫn, truyền đạt những kiến thức, kinh nghiệm để tôi có thể hoàn thành đề tài này.
Tôi chân thành cảm ơn đến các thầy cô trường Đại Học Lạc Hồng nói chung và
các thành cô khoa Công Nghệ Thông Tin nói riêng, nơi tôi công tác và nghiên cứu đã
tạo nhiều điều kiện và hỗ trợ tôi trong suốt thời gian qua.
Tôi cũng xin chân thành cảm ơn các thầy cô là các giảng viên giảng dạy lớp cao
học công nghệ thông tin đã tận tình truyền đạt, chỉ bảo và cung cấp cho tôi những kiến
thức hết sức cần thiết trong suốt thời gian học, và cũng xin gửi lời cảm ơn chân thành
đến những người thân, bạn bè và đồng nghiệp đã giúp đỡ và động viên tôi trong suốt
thời gian học tập cũng nhưng trong thời gian thực hiện luận văn.
Chân thành cảm ơn!
Đồng Nai, tháng 9 năm 2013
Dƣơng Đăng Vinh
MỤC LỤC
Lời cam đoan ........................................................................................................... i
Lời cảm ơn .............................................................................................................. ii
Mục lục .................................................................................................................... iii
Danh mục chữ viết tắt ............................................................................................. iv
Danh mục hình ........................................................................................................ v
Danh mục bảng biểu ................................................................................................ vi
Mở đầu .................................................................................................................... 1
Tóm lƣợc đề tài ....................................................................................................... 1
Nội dung thực hiện .................................................................................................. 2
Phạm vi ứng dụng ................................................................................................... 3
CHƢƠNG 1: GIỚI THIỆU ĐỀ TÀI ....................................................................... 4
1.1. Giới thiệu .......................................................................................................... 4
1.2. Mục tiêu đề tài .................................................................................................. 5
1.3 Phƣơng pháp thực hiện đề tài ............................................................................ 5
1.4 Bố cục luận văn ................................................................................................. 7
CHƢƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN ........................................... 8
2.1. Tình hình nghiên cứu trong và ngoài nƣớc ...................................................... 8
2.1.1 Tình hình ngoài nƣớc ................................................................................ 8
2.1.2 Tình hình trong nƣớc ................................................................................. 9
Chƣơng 3: CƠ SỞ LÝ THUYẾT ............................................................................ 10
3.1. Khái niệm SEO - Search Engine ..................................................................... 10
3.1.1 Khái niệm SEO – Search Engine Optimization ........................................ 10
3.1.2 Sự cần thiết của SEO ................................................................................. 10
3.1.3 Giới thiệu về Search Engine ..................................................................... 10
3.1.4 Phân loại Search Engine ............................................................................ 12
3.1.5 Search Engine làm việc nhƣ thế nào ......................................................... 14
3.1.6 Crawler, Spider, Robot .............................................................................. 16
3.1.7 XML sitemap, tạo file sitemap .................................................................. 19
3.2. SEO plan .......................................................................................................... 21
3.2.1 Xây dựng một kế hoạch SEO .................................................................... 21
3.2.2 Organic SEO ............................................................................................. 24
3.2.3 SEO mũ đen và cách phòng tránh ............................................................. 28
3.3. Những nhân tố đáng lƣu ý khi thiết kế website cho mục đích SEO ................ 32
3.3.1 Hosting và domain name ........................................................................... 32
3.3.2 Ngôn ngữ lập trình và SEO ....................................................................... 35
3.4. Tối ƣu hóa các yếu tố trong trang .................................................................... 37
3.4.1 Keyword và chiến lƣợc keyword .............................................................. 37
3.4.2 Tối ƣu bố cục của trang web ..................................................................... 41
3.4.3 Tối ƣu hóa các thành phần HTML ............................................................ 43
3.4.4 Cấu trúc URL ............................................................................................ 47
3.4.5 Xây dựng nội dung .................................................................................... 49
3.5. Tối ƣu hóa ngoài trang ..................................................................................... 51
3.5.1 Google Pagerank ....................................................................................... 52
3.5.2 Các phƣơng pháp xây dựng backlink ........................................................ 54
3.5.3 Alexa Rank là gì? ...................................................................................... 55
3.5.4 Tìm hiểu về chuẩn W3C ........................................................................... 56
3.6. Pay Per click – Google Adwords .................................................................... 57
3.6.1 PPC – Phân loại PPC ................................................................................. 57
3.6.2 Google Adwords ....................................................................................... 58
3.7. Những công cụ SEO phổ biến .......................................................................... 58
3.7.1 Google webmaster tools ............................................................................ 58
3.7.2 Google Analytics ....................................................................................... 61
CHƢƠNG 4: XÂY DỰNG ỨNG DỤNG TỐI ƢU HÓA WEBSITE THEO TIÊU CHÍ
ĐÁNH GIÁ CỦA CÁC CÔNG CỤ TÌM KIẾM .................................................... 65
4.1. Mục tiêu chung ................................................................................................. 65
4.2. Công cụ Thông tin chung ................................................................................. 65
4.2.1 Đặt bài toán ............................................................................................... 65
4.2.2 Phƣơng pháp giải quyết ............................................................................. 65
4.2.3 Kết quả ...................................................................................................... 67
4.3. Công cụ SEO Onpage ...................................................................................... 67
4.3.1 Đặt bài toán ............................................................................................... 67
4.3.2 Phƣơng pháp giải quyết ............................................................................. 68
4.3.3 Kết quả ...................................................................................................... 71
4.4 Công cụ SEO Offpage ....................................................................................... 72
4.4.1 Đặt bài toán ............................................................................................... 72
4.4.2 Phƣơng pháp giải quyết ............................................................................. 72
4.4.3Kết quả ....................................................................................................... 75
4.5 Công cụ tạo sitemap .......................................................................................... 75
4.5.1 Đặt bài toán ............................................................................................... 75
4.5.2 Phƣơng pháp giải quyết ............................................................................. 75
4.5.3 Kết quả ...................................................................................................... 76
Kết quả .................................................................................................................... 77
Tài liệu tham khảo
Phụ lục
Danh mục từ viết tắt
AJAX
Asynchronous JavaScript and XML
ASP
Active Server Pages
CMS
Content Management Systems
CSS
Cascading Style Sheets
DOM
Document Object Model
PHP
Hypertext Preprocessor
HTML
HyperText Markup Language
HTTP
HyperText Transfer Protocol
MSN
Microsoft Network
PDA
Personal Digital Assistant
PPC
Pay Per Click
PR
PageRank
RSS
Really Simple Syndication
SE
Search Engine
SEM
Search Engine Marketing
SEO
Search Engine Optimization
SERPs
Search Engine Result Pages
URL
Uniform Resouce Locator
XML
eXtensible Markup Language
WWW
World Wide Web
Danh mục hình
Hình 1 - Giao diện nhập từ khóa để tìm kiếm .................................................. 11
Hình 2 - Cơ chế hoạt động của Google Spider ................................................ 15
Hình 3 - File robots.txt ..................................................................................... 18
Hình 4 - Robot meta tag ................................................................................... 19
Hình 5 - File sitemap.xml................................................................................. 20
Hình 6 - Organic SEO ...................................................................................... 26
Hình 7 - Black-hat SEO ................................................................................... 28
Hình 8 - Tên miền ............................................................................................ 34
Hình 9 - Từ khóa .............................................................................................. 37
Hình 10 - Thẻ header ....................................................................................... 45
Hình 11 - Google PageRank ............................................................................ 52
Hình 12 - Hiện thị Google Adword trên website ............................................. 58
Hình 13 - Thêm URL vào Google webmaster tools ........................................59
Hình 14 - Xác nhận chủ quyền website ........................................................... 59
Hình 15 - Bảng điều khiển ............................................................................... 60
Hình 16 - Đăng ký Google Analytics ............................................................... 62
Hình 17 - Chấp nhận điề khoản GA .................................................................62
Hình 18 - Mã Google cung cấp ........................................................................63
Hình 19 - Tổng quan Google Analytics ........................................................... 63
Hình 20 - Sơ đồ thông tin chung ......................................................................66
Hình 21 - Sơ đồ Onpage ................................................................................... 68
Hình 22 - Sơ đồ Offpage .................................................................................. 73
Danh mục bảng biểu
Bảng 1 - Giá trị đặc biệt trong sitemap.xml ..................................................... 20
Bảng 2 - Những trƣờng trong file sitemap.xml ................................................ 21
Bảng 3 - Xác định độ cạnh tranh ......................................................................39
1
Mở đầu
Tóm lƣợc đề tài
Hiện nay, với sự phát triển không ngừng của công nghệ, máy tính nói chung hay
World Wide Web (www) nói riêng là một môi trường phổ biến để người dùng có thể
tìm kiếm, quảng cáo, xây dựng thương hiệu trên đó quả thật nó đem lại một lợi ích
không nhỏ cho con người. Với hàng tỷ webstie đang tồn tại, đi kèm với nó là một khối
lượng thông tin vô cùng to lớn. Chính vì sự khổng lồ của thông tin như vậy dẫn đến
việc tìm kiếm và tổng hợp thông tin không thuận lợi, gây nhiều khó khăn để có được
một kết quả tìm kiếm như mong muốn.
Người dùng ngày nay có thói quen sử dụng những công cụ tìm kiếm hơn là phải
nhớ chính xác một website nào đó.
Với rất nhiều dữ liệu mà bộ máy tìm kiếm đang lưu trữ không những là nguồn tài
nguyên không giới hạn mà còn là một quyển bách khoa toàn thư cho người dùng nhưng
cũng là thách thức rất lớn đối với các công cụ tìm kiếm, khi đó sẽ nảy sinh một vấn đề:
làm thế nào để bộ máy tìm kiếm trả về kết quả tìm kiếm của người dùng một cách
nhanh chóng và chính xác.
Theo khảo sát mới của hãng nghiên cứu internetworldstats [20], có đến 90%
người sử dụng Internet dùng công cụ tìm kiếm để tra cứu thông tin. Và theo thống kê
có hơn (60%) số lượng website trên thế giới sử dụng không đúng những tiêu chí đánh
giá mà các công cụ tìm kiếm đưa ra, nên các website mang nội dung chính xác mà
người dùng cần tìm lại có tỉ lệ xuất hiện ở các công cụ tìm kiếm là rất thấp.
Phát hiện một website bị lỗi về mặt tối ưu hóa là một bài toán được đặt ra trước
nhu cầu thực tế đó, sẽ giúp cho các công cụ tìm kiếm hiểu được bố cục, nâng cao chất
lượng và tăng hiệu quả đánh chỉ mục.
Điều chỉnh lại những tiêu chí đánh giá của các công cụ tìm kiếm đưa ra trên mỗi
website cũng là một vấn đề hết sức thực tế, sẽ giúp công cụ tìm kiếm tiết kiệm thời
2
gian trong việc sàng lọc thông tin, tổng hợp từ khóa chính, từ khóa miêu tả, link lên kết
trong website và ngoài website.
Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng ứng dụng thực tế
và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu
cho mọi loại website trên thế giới. Nên tác giả quyết định chọn đề tài “xây dựng công
cụ hỗ trợ tối ưu hóa website cho các công cụ tìm kiếm” để làm đề tài luận văn. Đề tài
tập trung vào việc phân tích, đánh giá website và đề xuất một phương pháp điều chỉnh
phù hợp, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một công cụ nhằm
cải thiện vị trí xếp hạng trong công cụ tìm kiếm.
Mục tiêu của Luận văn này sẽ đưa ra những lời khuyên, lời tư vấn cho người
duyệt web, kể cả những người chủ website những kiến thức cơ bản và chuyên sâu về
SEO, làm thế nào để SEO một website hiệu quả. Phân biệt được những hình thức tối
ưu trong trang và tối ưu ngoài trang, một số cách phòng chống SEO mũ đen, cung cấp
công cụ tạo sitemap trực tuyến, đưa ra những chỉ dẫn nhằm tối ưu hóa các tiêu chí của
công cụ tìm kiếm, giới thiệu những công cụ hỗ trợ tốt nhất hiện nay để các webmaster
có được thông tin cần thiết để tối ưu hóa website.
Song song với kiến thức về SEO, chúng tôi sẽ tiến hành thực hiện một web
crawler để thu thập thông tin từ website người dùng để người dùng có được những
thông báo những tối ưu cụ thể. Công cụ được xây dựng trên nền tảng web thân thiện dễ
sử dụng.
Nội dung thực hiện đề tài
- Tìm hiểu các tiêu chí đánh giá của công cụ tìm kiếm cụ thể như:
+ SEO onpages
+ SEO offpages
- Thiết kế và xây dựng công cụ hỗ trợ tối ưu hóa website dựa theo các tiêu chí đánh
giá của công cụ tìm kiếm.
3
Phạm vi ứng dụng
Công cụ được xây dựng nhằm mục đích hỗ trợ cho những nhà quản trị web để có
được những thông tin bổ ích từ đó họ sẽ có được những chiến lược phù hợp để SEO
website. Công cụ không tiến hành phân tích từ khóa bởi tiến hành khá phức tạp và tầm
chính xác không cao. Để xử lý từ khóa hiện Google có hỗ trợ một công cụ phân tích
khá tốt sẽ được nhắc đến ở phần sau.
4
CHƢƠNG 1: GIỚI THIỆU ĐỀ TÀI
1.1
Giới thiệu
Vào đầu thập niên 90, sự xuất hiện của World Wide Web đã chính thức bắt đầu
cho cuộc cách mạng internet bởi nó giúp cho chúng ta có thể tìm kiếm thông tin một
cách nhanh chóng. Đến năm 1994, trình duyệt web đầu tiên ra đời được phát triển bởi
tập đoàn Nescape làm thay đổi cách giao tiếp của con người với internet. Số lượng
trang web gia tăng nhanh chóng, thế nên thông tin mà nó mang lại là vô cùng to lớn.
Sự phát triển thông tin trên internet làm cho nhu cầu trao đổi, tìm kiếm thông tin trên
mạng ngày càng nhiều khi đó nảy sinh một vấn đề: làm thế nào để tìm được dữ liệu
mong muốn một cách nhanh nhất và chính xác nhất?
Sự ra đời của các hệ thống tìm kiếm đã đáp ứng được nhu cầu trên, với những
công cụ như: Google, Yahoo!, Bing, Ask, Wolfram Alpha, …
Nhận thấy được tiền năng của Internet trong thời đại công nghệ thông tin, các
doanh nghiệp bắt đầu xây dựng các website, nhằm quảng bá thương hiệu của mình đưa
khách hàng đến gần với sản phẩm hơn. Thế nhưng sự cạnh tranh của các doanh nghiệp
là điều không thể tránh khỏi, thông tin sản phẩm có đến với khách hàng hay không
phụ rất nhiều vào một chiến lược marketing hợp lý.
Ngày nay, với sự bùng nổ của Internet và sự thay đổi thói quen mua sắm, tiếp cận
thông tin của người dùng internet thì một thương hiệu có nổi tiếng trên mạng hay
không phụ thuộc vào thứ hạng có xuất hiện đầu tiên trên công cụ tìm kiếm.
Theo nghiên cứu các hoạt động online tại Mỹ, của Pew Internet & American Life
Project (4/2013) thì có tới 80% người trưởng thành sử dụng công cụ tiềm kiếm. Trong
các công cụ tiềm kiếm Google vẫn giữ vị trí thống trị với 67,5% tiếp theo là Bing
16.7% và Yahoo! chiếm 11.6%, Ask là 2.6% ... (theo comscore tháng 3/2013 tại Mỹ).
Còn tại thị trường tiềm kiếm trên thế giới Google vẫn chiếm vị trí thống lĩnh với
83,22% (4/2013 – Net Market Share) và chiếm độc tôn trên thị trường di động.
5
Chúng ta có thể thấy rằng những chỉ số ở trên đã chứng tỏ một điều là hoạt động
tìm kiếm trên internet là một thị trường quảng cáo tiếp cận khách hàng tiềm năng vô
cùng dễ dàng và nhanh chóng. Bởi vì, khi sử dụng các công cụ tìm kiếm, người sử
dụng xác định được trước điều mình cần và sản phẩm mình muốn, thống kê trên thế
giới, khoảng 70% số lượng người tìm không tìm hết các kết quả tiềm kiếm ở trang đầu
tiên, 97% không xem kết quả tìm kiếm đến trang thứ 3. Ở Việt Nam khoảng 97.23% số
lượng người truy cập vào công cụ tìm kiếm Google (theo Net Market Share tháng
4/2013).
Bên cạnh việc sử dụng các dịch vụ quảng cáo của các công cụ tiềm kiếm như
Google, Yahoo!, Bing, Ask, … hoặc các dịch vụ Marketing Online, thì nhiều doanh
nghiệp hiện nay thực sự quan tâm đến việc làm thế nào để đưa thương hiệu của mình
đến gần hơn với người sử dụng mà chi phí thì giảm thấp nhất.
SEO (Search Engine Optimization) đã trở nên rất quen thuộc trên thế giới và đang
trên đà phát triển rộng rãi tại Việt Nam.
1.2
Mục tiêu đề tài
- Liệt kê những thông tin của website dựa trên nguồn HTML
- Xây dựng một quy trình chặt chẽ, nhằm đáp ứng tốt nhất các tiêu chí mà công cụ
tìm kiếm đánh giá là thân thiện.
- Phân tích và thống kê tất cả các tiêu chí đã thực hiện trên website và đưa ra kiến
nghị cần thiết phải bổ sung để tối ưu hóa về mặt cấu trúc của website.
- Xây dựng công cụ hỗ trợ tối ưu hóa website dựa theo các tiêu chí đánh giá của
công cụ tìm kiếm nhằm cải thiện vị trí xếp hạng.
1.3
Phƣơng pháp thực hiện đề tài
Để tiếp cận những vấn đề trên cần phải có kiến thức tối thiểu về lập trình. Do đó
phương pháp nghiên cứu là:
Khảo sát tổng quan về vấn đề nghiên cứu.
6
Tham khảo các tài liệu, báo chí đã phát hành về lĩnh vực đang nghiên cứu.
Tìm hiểu các cách thức tối ưu hóa để website phù hợp với công cụ tìm kiếm, đặc
trưng ở các tiêu chí đánh giá sau:
Tối ưu hóa trong trang
o
Thẻ title: miêu tả ngắn gọn và chính xác nội dung trang web
o
Thẻ meta description: miêu tả tự nhiên nội dung trang web
o
Thẻ meta keyword: là những từ khóa tối ưu hóa
o
Thẻ heading h1, h2, h3, …., h6 của trang
o
Thuộc tính ALT của hình ảnh
o
Thuộc tính TITLE trong thẻ Anchor text (thẻ a)
Tối ưu hóa ngoài trang
o
Liên kết trong trang
Liên kết với những link đã tồn tại ở website của mình
o
Liên kết ngoài trang
Liên kết với các website khác có cùng lĩnh vực
Phân tích từng phần trong toàn bộ cấu trúc HTML của website, các phương pháp là:
Duyệt toàn bộ mã HTML của website.
So sánh mã HTML của website với tính đầy đủ các tiêu chí mà công cụ
tìm kiếm đưa ra.
Dựa trên các tiêu chí để chỉ ra những thiếu sót và dư thừa trong trang
web.
Nghiên cứu và đưa ra những giải pháp tối ưu hóa website nhằm đáp ứng tốt các
tiêu chí mà công cụ tìm kiếm đưa ra, cụ thể các phương pháp như:
Phân tích các tiêu chí đã có trên website.
Xây dựng các giải pháp cho từng trường hợp.
7
Rút ra kết luận, dùng phương pháp thống kê dựa vào kết quả dò tìm và đưa ra các
đề nghị chỉnh sửa.
Xây dựng công cụ dựa trên ngôn ngữ PHP và hệ quản trị CSDL MYSQL
Thử nghiệm công cụ với những website thực tế ở địa bàn Đồng Nai để đánh giá
tính hiệu quả như: cải thiện thứ hạng website ở kết quả tìm kiếm theo tiêu chí SEO.
1.4
Bố cục luận văn
Phần còn lại của luận văn gồm có bố cục như sau. Chương 2 sẽ nói về những công
trình liên quan, Chương này sẽ điểm qua một số công trình nghiên cứu trong và ngoài
nước, để đánh giá quy mô, tầm ảnh hưởng với nhu cầu thực tế để có hướng đi đúng
đắn. Chương 3 đi vào cơ sở lý thuyết, trong chương này sẽ tìm hiểu cách thức hoạt
động của các công cụ tìm kiếm, làm thế nào để lập một kế hoạch SEO hoàn hảo, cách
lựa chọn tên miền, hosting hiệu quả, ngôn ngữ lập trình web có ảnh hưởng đến SEO ra
sao, tối ưu hóa trong trang với những thẻ như title, a, h1, h2, h3, meta, img. Cách lựa
chọn từ khóa hiệu quả, nên đặt từ khóa ở đâu, mật độ như thế nào cho hiệu quả, ngoài
ra còn đề cập đến tối ưu hóa ngoài trang như xây dựng backlink, sử dụng dịch vụ pay
per click như thế nào hiệu quả. Chương 4 sẽ đi xây dựng ứng dụng tối ưu hóa website
theo tiêu chí đánh giá của các công cụ tìm kiếm. Đưa ra bài toán thực hiện, và hướng
giải quyết và kết quả đạt được cho mỗi công cụ trong chương trình.
8
CHƢƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN
2.1
Tình hình nghiên cứu trong và ngoài nƣớc
2.1.1
Tình hình ngoài nƣớc
Vấn đề tối ưu hóa website nhận được sự quan tâm của cộng đồng công nghệ
thông tin trên thế giới, các công trình nghiên cứu liên quan đến tối ưu hóa website như:
Bài báo “A Study on SEO Monitoring System Based on Corporate Website
Development” tạm dịch Nghiên cứu hệ thống giám sát SEO dựa trên sự phát
triển website của doanh nghiệp, của 2 tác giả là phó Giáo Sư Rakesh Kumar
và học giả nghiên cứu Shiva Saini, Kurukshetra University, đăng trên tạp chí
International Journal of Computer Science, Engineering and Information
Technology (IJCSEIT) (2011).[11]
Bài báo này nói về hệ thống cung cấp hiệu suất trong việc theo dõi các kỹ
năng SEO của website, và cung cấp thông tin hỗ trợ phù hợp để tối ưu hóa
trên công cụ tìm kiếm.
Bài báo: “Academic Search Engine Optimization (ASEO)” của 3 tác giả
Joeran Beel, Bela Gipp, and Erik Wilde, University of Toronto (tháng 1 –
2010).[9]
Bài báo này giới thiệu và thảo luận các khái niệm về tối ưu hóa công cụ tìm
kiếm (ASEO). Ngoài ra, còn thảo luận những rủi ro của việc tối ưu hóa bất
hợp pháp.
Bài báo “Search Engine Optimization (SEO) as a dynamic online promotion
technique” của tác giả George S. Spais, Hy Lạp (năm 2010).[5]
Bài báo nêu ra khái niệm để tiếp cận công cụ tìm kiếm được sử dụng để hỗ
trợ cho việc thiết kế, phân tích, điều tra kỹ thuật SEO.
Các đề tài trên đều có ưu điểm cụ thể như đưa nội dung của website sát với những
tiêu chí mà các công cụ tìm kiếm đưa ra nhưng các đề tài này không tập trung vào tối
9
ưu hóa các website có nội dung là bảng mã UTF8. Để áp dụng cho những website ở
Việt Nam thì độ tối ưu không cao, vì các công cụ tìm kiếm hiểu từ khóa có dấu và từ
khóa không dấu là 2 từ khóa khác nhau.
2.1.2
Tình hình trong nƣớc
Luận văn tốt nghiệp đại học “Xây dựng công cụ hỗ trợ tối ưu website với
SEO (Search Engine Optimization)”, là công trình nghiên cứu của hai sinh
viên Nguyễn An Huy và Nguyễn Tiến Nghĩa của Trường Đại Học Bách
Khoa Tp.Hồ Chí Minh, với nội dung cơ bản là cung cấp những kiến thức cơ
bản về SEO và làm thế nào để SEO một website hiệu quả.[1]
Có các câu lạc bộ về SEO (search engine optimization) Việt Nam cũng có
những bài viết, báo cáo đăng trên các tạp chí.[2]
Các bài báo trên đều có những ưu điểm nhất định, tuy nhiên các báo cáo mang
tính chất giới thiệu, khái niệm cơ bản, chưa đi sâu vào những kỹ thuật đánh giá chuẩn.
Phát hiện một website bị lỗi về mặt tối ưu hóa là một bài toán được đặt ra trước
nhu cầu thực tế đó, sẽ giúp cho các công cụ tìm kiếm hiểu được bố cục, nâng cao chất
lượng và tăng hiệu quả đánh chỉ mục.
Điều chỉnh lại những tiêu chí đánh giá của các công cụ tìm kiếm đưa ra trên mỗi
website cũng là một vấn đề hết sức thực tế, sẽ giúp công cụ tìm kiếm tiết kiệm thời
gian trong việc sàng lọc thông tin, tổng hợp từ khóa chính, từ khóa miêu tả, link lên kết
trong website và ngoài website.
Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng ứng dụng thực tế
và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu
cho mọi loại website trên thế giới. Nên tác giả quyết định chọn đề tài “xây dựng công
cụ hỗ trợ tối ƣu hóa website cho các công cụ tìm kiếm” để làm đề tài luận văn. Đề
tài tập trung vào việc phân tích, đánh giá website và đề xuất một phương pháp điều
chỉnh phù hợp, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một công cụ
nhằm cải thiện vị trí xếp hạng trong công cụ tìm kiếm.
10
CHƢƠNG 3: CƠ SỞ LÝ THUYẾT
3.1
Khái niệm SEO - Search Engine
3.1.1
Khái niệm SEO – Search Engine Optimization
SEO được hiểu là tập hợp những phương pháp nhằm nâng cao thứ hạng Website
trên các công cụ tiềm kiếm. Mục tiêu của SEO là đưa trang web lên hàng đầu kết quả
tìm kiếm theo một từ khóa cụ thể. Nhưng chủ yếu là tinh chỉnh các thành phần thiết kế
và nội dung. Nó còn được hiểu là một phần của quá trình quảng bá web. SEO thường
gồm hai quá trình: Tối ưu hóa các yếu tố trên trang (SEO onpage) và tối ưu hóa của
yếu tố bên ngoài trang (SEO offpage).
Cần phân biệt rõ khái niệm SEM và SEO [10], SEM (Search Engine Marketing)
là tập hợp tất cả mọi thứ mà chúng ta cần làm để đảm bảo rằng trang web được sắp xếp
trang hàng cao nhất trong kết quả tìm kiếm. Điều này có nghĩa là không chỉ thực hiện
SEO trên trang web mà còn sử dụng những chiến thuật khác, như sử dụng dịch dụ
quảng cáo trả tiền PPC (Pay Per Click) hay đầu tư vào viết nội dung chuẩn SEO.
3.1.2
Sự cần thiết của SEO
Trên thế giới ảo, sự xuất hiện đầu tiên trên trang kết quả tìm kiếm sẽ có cơ hội thu
hút nhiều người tìm kiếm truy cập hơn. Vì vậy nếu làm SEO tốt sẽ làm tăng được
lượng người truy cập từ các trang web tìm kiếm. Thậm chí, một chuyên gia quảng cáo
mạng cho rằng “trên Internet, thương hiệu không là gì cả. Xuất hiện cao trên kết quả
tìm kiếm mới quan trọng”.
3.1.3
Giới thiệu về Search Engine
Search engine nguyên thủy là một phần mền nhằm tìm kiếm các trang web trên
mạng internet. Những thông tin thu nhập đó thường là từ khóa hay những cụm từ,
những thông tin này có thể là toàn bộ nội dung của trang web, URL, các mã (code) tạo
thành web, và các liên kết (link) trong và ngoài trang web. Các thông tin này được
đánh chỉ số index và lưu trong cơ sở dữ liệu.[18]
11
Search Engine là công cụ được xây dựng trên nền tảng web cho phép người sử
dụng tìm kiếm thông tin, chúng ta có thể tìm bất kỳ thông tin nào bằng cách gõ vào từ
khóa (keyword) cần tìm kiếm, bộ máy tìm kiếm sẻ trả về một danh sách kết quả các
trang web có nội dung liên quan đến từ khóa đến từ khóa mà chúng ta nhập vào.
Internet chứa hầu như tất cả những thông tin liên quan tới mọi lĩnh vực, mọi ngõ
ngách trong cuộc sống. Nhưng nó rất rộng, rộng đến mức gần như không ai có thể
kiểm soát được. Diện mạo của internet lại thay đổi quá nhanh chóng và mạnh mẽ. Với
số lượng lên tới hàng chục tỉ trang, được lưu trữ trong hàng triệu server đặt khắp nơi
trên toàn thế giới.
Có thể ví internet như một biển dữ liệu khổng lồ, với muôn vàn những viên ngọc
quí nằm giữa các hạt sạn. Trong đời sống hàng ngày, nhu cầu tìm kiếm thông tin đóng
vai trò vô cùng to lớn, và một trong những vấn đề bức thiết nhất của công nghệ hiện
nay là làm sao “đãi cát tìm vàng”, khai thác nguồn tài nguyên này một cách hợp lí, đem
lại lợi ích tốt nhất cho con người.
Trước đây, người ta thường chia dữ liệu cần lưu trữ làm nhiều mục, đến lượt các
mục con này lại được chia nhỏ hơn. Tuy nhiên, những chủ đề được nêu trong Internet
đã rộng lớn đến nỗi sự phân chia này trở nên cực kì cồng kềnh và bất tiện. Ngày nay,
hầu hết mọi người đều sử dụng Search Engine để tìm kiếm thông tin.
Hình 1 - Giao diện nhập từ khóa để tìm kiếm
(Nguồn: google.com.vn)
Đối với mỗi Search Engine (Google, Yahoo!, Bing, Ask v.v…), người dùng truy vấn
tìm kiếm hay nói đơn giản hơn là nhập vào một số từ khóa liên quan đến chủ đề cần