Dinh Le Dat
 24/04/2015

Xác định Tính cách, Giới tính và Độ tuổi người dùng Internet thông qua Truyền thông xã hội

Xác định Tính cách, Giới tính và Độ tuổi người dùng Internet thông qua Truyền thông xã hội

Xác định Tính cách, Giới tính và Độ tuổi người dùng Internet thông qua ngôn từ trên Truyền thông xã hội.

Một trong những công nghệ nền tảng (#AdTech) quan trọng nhất của Quảng cáo trực tuyến là thuật toán & mô hình xử lý dữ liệu Ngôn ngữ tự nhiên (Natural Language Processing – NLP). Vào những năm đầu 2008 công nghệ hiển thị quảng cáo theo ngữ cảnh (Contextual Advertising) đã làm điên đảo thị trường quảng cáo trực tuyến toàn cầu với những cái tên AdSense, Yahoo! Bing Network Contextual Ads, Microsoft adCenter, Advertising.com.

Quảng cáo theo ngữ cảnh phần nào thay thế dần vai trò lên kế hoạch (Media Planning) nơi mà chiến dịch quảng cáo sẽ chạy. Lúc trước, đây là công việc của con người, tuy nhiên, với sự ra đời của quảng cáo theo ngữ cảnh thì việc phân tích tự động nhờ những thuật toán thông minh đã dần thay thế công việc này của con người (Media Planner).

DLD_AdTechVietnam_Avatar

Ts. Đinh Lê Đạt – Big Data in Advertising, Data-Driven Marketing, AdTechVietnam Evangelist.

Tóm lại sự ra đời của quảng cáo theo ngữ cảnh đã tác động rất lớn đến ngành công nghiệp quảng cáo trực tuyến. Nó mang lại hiệu quả cao hơn cho các chiến dịch quảng cáo, mang lại thu nhập nhiều hơn cho các Publisher và giảm độ phiền phức của quảng cáo cho người xem. Đây chính là điểm mạnh của các mạng quảng cáo trực tuyến (Ad Network), đặc biệt hơn thế nữa ngày hôm nay công nghệ NLP có thể giúp các hệ thống quảng cáo xác định được Tính cánh – Giới tính – Độ tuổi của người dùng Internet một cách chính xác mà ko cần bất kỳ thông tin tài khoản hay cá nhân của người dùng.

Mới đây các nhà khoa học ở University of Pennsylvania – Mỹ, University và University of Cambridge – Anh Quốc đã nghiên cứu thành công mô hình xử lý dữ liệu các nhóm từ vựng của người dùng trên các truyền thông xã hội (Social Media) để xác định với độ chính xác cao về Tính cách – Giới tính – Độ tuổi của người dùng Internet. Mô hình đã phân tích hơn 700 triệu từ, cụm từ và các chủ đề thu thập từ các thông điệp Facebook của 75.000 tình nguyện viên đạt tiêu chuẩn qua kiểm tra tính cách. Thuật toán tìm ra các biến thể nổi bật trong ngôn ngữ và kết hợp các mô hình phân tích tâm lý học xã hội để phân biệt tính cách, giới tính và độ tuổi người dùng.

Dưới đây là một số hình ảnh về mô hình xử lý dữ liệu và bài báo cáo khoa học của mô hình:

ANTS The infrastructure of our differential language analysis

Hình 1. Cấu trúc các lớp xử lý ngôn ngữ: 1) Feature Extraction. Language use features include: (a) words and phrases: a sequence of 1 to 3 words found using an emoticon-aware tokenizer and a collocation filter (24,530 features) (b) topics: automatically derived groups of words for a single topic found using the Latent Dirichlet Allocation technique [72,75] (500 features). 2) Correlational Analysis. We find the correlation (b of ordinary least square linear regression) between each language feature and each demographic or psychometric outcome. All relationships presented in this work are at least significant at a Bonferroni-corrected pv0:001 [76]. 3) Visualization. Graphical representation of correlational analysis output. doi:10.1371/journal.pone.0073791.g001

ANTS Correlation values of LIWC categories with gender age and the five factor model of personality

Hình 2. Giá trị tương quan của nhóm LIWC với giới tính, độ tuổi và 5 yếu tố của mô hình nhân cánh: [34] d: Effect size as Cohen’s d values from Newman et al. ’s recent study of gender (positive is female, ns~ not significant at pv:001) [30]. b: Standardized linear regression coefficients adjusted for sex, writing/talking, and experimental condition from Pennebaker and Stone’s study of age (ns~ not significant at pv:05) [27]. r: Spearman correlations values from Yarkoni’s recent study of personality (ns~ not significant at pv:05). our b: Standardized multivariate regression coefficients adjusted for gender and age for this current study over Facebook (ns = not significant at Bonferroni-corrected pv:001). doi:10.1371/journal.pone.0073791.g002

ANTS Words phrases and topics most highly distinguishing females and males

Hình 3. Từ, cụm từ, và các chủ đề nổi bật để phân biệt nam và nữ. Female language features are shown on top while males below. Size of the word indicates the strength of the correlation; color indicates relative frequency of usage. Underscores (_) connect words of multiword phrases. Words and phrases are in the center; topics, represented as the 15 most prevalent words, surround. (N~74,859: 46,412 females and 28,247 males; correlations adjusted for age; Bonferroni-corrected pv0:001). doi:10.1371/journal.pone.0073791.g003

 

  (Theo PLOS)

Related Posts