Đọc các bài viết đằng sau paywalls bằng cách giả mạo như Googlebot

Internet đang ở điểm bùng phát. Sự gia tăng liên tục của quảng cáo đã chấm dứt mô hình doanh thu chỉ dựa vào tiền quảng cáo để vận hành các trang web và doanh nghiệp.

Đặc biệt là các trang tin tức đã bắt đầu thử nghiệm các cách để đa dạng hóa nguồn thu nhập, và một lựa chọn nổi bật mà các trang web như The Wall Street Journal, Financial Times, New York Times hay The Washington Post đều thực hiện là hệ thống paywall.

Có nhiều loại paywalls khác nhau nhưng chúng đều có điểm chung là chúng chặn truy cập vào nội dung trực tiếp hoặc sau khi một số bài viết nhất định đã được đọc trên trang web.

Khách truy cập sau đó được yêu cầu đăng ký vào trang web để tiếp tục đọc các bài viết trên đó.

Nó có thể có ý nghĩa từ quan điểm kinh doanh và có thể sinh lợi hơn so với việc chiến đấu với những người dùng chạy quảng cáo, nhưng có một nhược điểm đối với cả trang web trả tiền và người dùng bị chặn.

Các trang web mất phần trăm khách truy cập cao nếu họ triển khai hệ thống paywall. Không rõ tỷ lệ phần trăm thực sự cao đến mức nào và có thể thay đổi từ trang này sang trang khác, nhưng nó có thể cao hơn rất nhiều so với tỷ lệ khách truy cập đăng ký vào trang sau khi được chọn đăng ký để đọc bài viết mong muốn.

Giả trang trình duyệt của bạn

Không có gì bí mật rằng các trang web tin tức cho phép truy cập vào các công cụ tổng hợp tin tức và công cụ tìm kiếm. Nếu bạn kiểm tra Google News hoặc Tìm kiếm chẳng hạn, bạn sẽ tìm thấy các bài viết từ các trang web có paywalls được liệt kê ở đó.

Trước đây, các trang tin tức cho phép truy cập của khách truy cập đến từ các nhà tổng hợp tin tức lớn như Reddit, Digg hoặc Slashdot, nhưng thực tế đó dường như vẫn tốt như ngày nay.

Một mẹo khác, để dán tiêu đề bài viết vào công cụ tìm kiếm để đọc trực tiếp câu chuyện được lưu trong bộ nhớ cache, dường như không hoạt động chính xác nữa cũng như các bài viết trên các trang web có paywalls thường không được lưu trữ nữa.

Cập nhật : Tạp chí Phố Wall thông báo rằng họ sẽ cắm lỗ được mô tả dưới đây. Tuy nhiên, bạn vẫn có thể đọc các bài viết đằng sau paywall của trang web bằng cách sử dụng phương pháp sau:

  1. Nhấn F12 khi bạn đang ở trang bài viết với bài viết bị cắt và yêu cầu đăng ký để đọc nó đầy đủ.
  2. Mở tab giao diện điều khiển.
  3. Dán javascript: window.location = "// m.facebook.com/l.php?u="+encodeURIComponent(window.location.href);
  4. Nhấn Enter.

Trang sẽ tải lại, và bài viết nên được tải đầy đủ. Bạn cũng có thể đăng liên kết bài viết trên Facebook, ví dụ như trong một bài đăng mới mà chỉ bạn mới có thể nhìn thấy. Nhấp vào liên kết được đăng sẽ tải toàn bộ bài viết trên trang web của Tạp chí Phố Wall.

Tác nhân người dùng và người giới thiệu

Bạn có thể tự hỏi làm thế nào các trang web chặn hoặc cho phép truy cập vào nội dung của trang web. Các phương pháp đã được cải thiện qua nhiều năm và không còn đủ đơn giản để thay đổi người giới thiệu trình duyệt thành //www.google.com/ để có quyền truy cập đầy đủ vào nội dung của trang web.

Thay vào đó, các trang web sử dụng các kiểm tra khác nhau bao gồm tác nhân người dùng, người giới thiệu và cookie và đôi khi còn hơn thế nữa để xác định tính hợp pháp của quyền truy cập.

Thông tin chung

Có lẽ cách tốt nhất để giả trang trình duyệt là biến nó thành Googlebot.

  • Giới thiệu: //www.google.com/
  • Tác nhân người dùng: Mozilla / 5.0 (tương thích; Googlebot / 2.1; + // www.google.com/bot.html

Firefox

Người dùng Firefox cần hai tiện ích bổ sung cho trình duyệt: thứ nhất, RefControl, để thay đổi giá trị của người giới thiệu khi truy cập các trang tin tức, thứ hai, User Agent Switcher, để thay đổi tác nhân người dùng của trình duyệt.

  1. Tải xuống và cài đặt cả hai phần mở rộng trong trình duyệt web Firefox.
  2. Nhấn vào phím Alt và chọn Công cụ> Tùy chọn RefControl.
  3. Nhấp vào "thêm trang web", nhập tên miền trong trang web, chọn hành động tùy chỉnh và nhập //www.google.com/ làm người giới thiệu.
  4. Lặp lại điều này cho tất cả các trang web tin tức bạn muốn truy cập (một số có thể không hoạt động ngay cả khi bạn thực hiện các thay đổi, vì vậy hãy ghi nhớ điều đó).
  5. Khi bạn đã hoàn tất, đóng cửa sổ cấu hình.
  6. Chạm lại vào phím Alt và chọn Công cụ> Tác nhân người dùng mặc định> Chỉnh sửa tác nhân người dùng từ menu.
  7. Chọn Mới> Tác nhân người dùng và thay thế chuỗi trong trường Tác nhân người dùng bằng Mozilla / 5.0 (tương thích; Googlebot / 2.1; + // www.google.com/bot.html). Đặt tên là Googlebot.
  8. Thoát khỏi menu.
  9. Trước khi bạn truy cập các trang web này, hãy nhấn vào Alt và chọn Tác nhân người dùng mặc định> Googlebot.

Đây là tất cả để có nó. Một điều đáng tiếc là không có tiện ích mở rộng nào cho Firefox tự động thay đổi tác nhân người dùng dựa trên các trang web bạn truy cập.

Google Chrome

Người dùng Google Chrome có thể cài đặt các tiện ích mở rộng như Trình chuyển đổi tác nhân người dùng và Điều khiển người giới thiệu có sẵn để trình duyệt thực hiện tương tự.

Tuy nhiên, có một khả năng khác, và đó là tạo một tiện ích mở rộng tùy chỉnh tự động hóa quy trình trong trình duyệt.

Hướng dẫn được cung cấp trên Elaineou. Về cơ bản, tất cả chỉ là tạo một thư mục mới trên máy tính cục bộ, tạo hai tệp background.js và manifest.json bên trong nó, sao chép và dán mã tìm thấy trên trang web vào các tệp.

Bạn cần bật "chế độ nhà phát triển" trên chrome: // extend / và sau đó có thể chọn "tải tiện ích mở rộng đã giải nén" để chọn thư mục bạn đã tạo hai tệp để tải tiện ích mở rộng trong Chrome.

Bạn có thể sửa đổi danh sách các trang web mà nó hỗ trợ để thêm những trang mới.