Wikipedia bắt đầu thu phí Meta và Microsoft để bán dữ liệu

Trong khi các công ty phát triển trí tuệ nhân tạo (AI) tạo sinh đang ráo riết săn lùng nguồn dữ liệu sạch để huấn luyện mô hình của mình, một trong những tổ chức lâu đời nhất trên Internet đã âm thầm thay đổi mô hình kinh tế. Wikimedia Foundation, tổ chức vận hành Wikipedia, vừa xác nhận đã ký kết các thỏa thuận mới với những ông lớn trong ngành công nghệ, bao gồm Amazon, Meta, Microsoft, Mistral AI và Perplexity. Những thỏa thuận này chính thức hóa việc trả phí để truy cập vào kho tàng thông tin khổng lồ của bách khoa toàn thư này, vốn từ lâu đã đóng vai trò là một nguồn tài nguyên mở nhưng cũng là mục tiêu bị khai thác miễn phí bởi các công cụ cào dữ liệu tự động.

Áp lực hạ tầng và thỏa thuận thương mại mới

Theo thông báo từ phía tổ chức, các hợp đồng mới sẽ cho phép những công ty tham gia được quyền truy cập vào dữ liệu của Wikipedia dưới dạng cấu trúc, với quy mô và tốc độ được tùy chỉnh để phù hợp với yêu cầu kỹ thuật của họ. Mặc dù Wikimedia Foundation không tiết lộ chi tiết về các điều khoản tài chính, nhưng động thái này đánh dấu một bước ngoặt lịch sử đối với một trong những trang web được truy cập nhiều nhất thế giới. Wikipedia đang chuyển dịch từ một mô hình chủ yếu dựa vào các khoản đóng góp nhỏ lẻ từ người dùng sang việc thiết lập các quan hệ đối tác thương mại với những công ty đang phát triển thế hệ mô hình ngôn ngữ lớn tiếp theo.

Lãnh đạo của Wikimedia Foundation cho biết chiến lược này là phản ứng tất yếu trước những áp lực kỹ thuật ngày càng tăng lên hệ thống mạng lưới. Hoạt động cào dữ liệu tự động (automated scraping), thường được ngụy trang dưới dạng lưu lượng truy cập thông thường, đã gia tăng mạnh mẽ khi các nhà phát triển AI liên tục thu thập văn bản trực tuyến để huấn luyện mô hình. Hệ quả là gánh nặng lên các máy chủ của Wikipedia đã tăng lên đáng kể, ngay cả khi lượng độc giả là con người thực tế đã giảm khoảng 8% trong năm qua.

Wikipedia bắt đầu thu phí Meta và Microsoft để bán dữ liệu

Hiện tại, Wikimedia đang vận hành một trong những hệ sinh thái máy chủ phức tạp nhất trên Internet, lưu trữ hơn 65 triệu bài viết bằng khoảng 300 ngôn ngữ khác nhau, được biên tập bởi khoảng 250.000 tình nguyện viên. Bà Maryana Iskander, Giám đốc điều hành của Wikimedia Foundation, chia sẻ với báo chí rằng việc duy trì cơ sở hạ tầng dữ liệu để phục vụ cho cả độc giả là con người và sự truy cập của máy móc tiêu tốn một khoản chi phí không nhỏ. Bà nhấn mạnh rằng hạ tầng của họ không miễn phí, và việc duy trì máy chủ cũng như các hạ tầng khác để các cá nhân và công ty công nghệ lấy dữ liệu cần phải có kinh phí vận hành.

Người sáng lập Wikipedia, ông Jimmy Wales, đã hoan nghênh các mối quan hệ đối tác này như một giải pháp thực tế. Ông lập luận rằng các mô hình AI được huấn luyện trên Wikipedia sẽ được hưởng lợi từ quy trình biên tập của con người, giúp lọc bỏ thông tin sai lệch và đảm bảo các tiêu chuẩn xác minh. Ông cho rằng các công ty AI nên đóng góp và chi trả cho phần chi phí mà họ đang đặt lên vai tổ chức này.

Tương lai của Wikipedia trong kỷ nguyên trí tuệ nhân tạo

Cuộc tranh luận về việc tái sử dụng dữ liệu đã diễn ra gay gắt trong toàn ngành công nghệ. Trong khi các thư viện hình ảnh và các nhà xuất bản đã tiến hành các hành động pháp lý chống lại việc sử dụng dữ liệu trái phép để huấn luyện AI, thì Wikimedia lại chọn một con đường khác. Thay vì hạn chế quyền truy cập, tổ chức này đang hướng tới sự hợp tác và bồi thường, thừa nhận rằng cấu trúc mở của Wikipedia đã khiến nó trở thành trung tâm của hệ sinh thái AI, và việc duy trì sự mở cửa đó đòi hỏi phải có nguồn vốn.

Đồng thời, Wikimedia cũng đang khám phá các ứng dụng riêng của mình đối với trí tuệ nhân tạo. Ông Wales mô tả các kế hoạch phát triển công cụ để tự động hóa việc bảo trì biên tập định kỳ, chẳng hạn như xác định các liên kết bị hỏng và đề xuất các nguồn thay thế dựa trên phân tích ngữ cảnh. Ông khẳng định những hệ thống này sẽ không thay thế các biên tập viên con người mà chỉ giúp giảm bớt các công việc lặp đi lặp lại. Ông cũng hình dung về một tương lai mà công cụ tìm kiếm của Wikipedia sẽ phát triển thành một động cơ đàm thoại, có thể trích dẫn trực tiếp từ văn bản đã được xác minh để trả lời các truy vấn của người dùng.

Hành trình của Wikipedia đã trải qua 25 năm với sự xuất bản cộng tác, tranh cãi và thích nghi. Nền tảng này vẫn là một trong mười điểm đến hàng đầu của Internet và thường xuyên là tâm điểm trong các cuộc tranh luận văn hóa và chính trị. Các nhà phê bình, bao gồm một số nhà lập pháp Mỹ và các nhân vật công nghệ như Elon Musk, đã cáo buộc Wikipedia có thiên kiến ý thức hệ, một cáo buộc mà ông Wales bác bỏ là điều không thể tránh khỏi trong các cuộc thảo luận trực tuyến phân cực. Đối thủ cạnh tranh dựa trên AI của Musk là Grokipedia cũng mô phỏng định dạng của Wikipedia nhưng dựa vào các mô hình ngôn ngữ lớn mà theo ông Wales là chưa thể sánh được với độ chính xác hoặc chiều sâu biên tập của bách khoa toàn thư này.

Bất chấp những biến động, ban lãnh đạo của Wikimedia coi các thỏa thuận mới nhất là một sự điều chỉnh thực tế hơn là sự rút lui khỏi các lý tưởng ban đầu. Tổ chức phi lợi nhuận này vẫn thu được phần lớn doanh thu từ khoảng tám triệu nhà tài trợ cá nhân. Tuy nhiên, các khách hàng doanh nghiệp giờ đây cung cấp một nguồn vốn mới trong một kỷ nguyên mà những người tiêu thụ dữ liệu lớn nhất là máy móc chứ không phải con người.

Viết một bình luận