Khoa học dữ liệu hiện đại với R (2024)

Tái bản lần thứ 3 (chỉnh sửa và cập nhật nhẹ)

Sách giáo khoa khoa học dữ liệu toàn diện dành cho sinh viên đại học kết hợp tư duy thống kê và tính toán để giải quyết các vấn đề trong thế giới thực về dữ liệu.

Tác giả

Benjamin S. Baumer, Daniel T. Kaplan và Nicholas J. Horton

Được phát hành

Ngày 24 tháng 3 năm 2024

ấn bản thứ 3

Đây là công việc đang được tiến hành của ấn bản thứ 3. Hiện tại, có những thay đổi tương đối khiêm tốn so với phiên bản thứ hai ngoài những thay đổi cần thiết trongRhệ sinh thái.

Những thay đổi chính bao gồm:

  1. Chuyển sang Quarto từ RMarkdown
  2. Chuyển đổi từ ống magrittr (%>%) về căn cứRđường ống (|>)
  3. Những cập nhật nhỏ cho các ví dụ cụ thể (ví dụ: cập nhật các bảng được lấy từ Wikipedia) và mã (ví dụ: các tùy chọn nhóm mới trongdplyrbưu kiện).

Tạitrang web chính của cuốn sách, bạn sẽ tìm thấy các bài đánh giá khác, tài nguyên của người hướng dẫn, lỗi in và thông tin khác.

Bạn có thấy vấn đề hoặc có đề xuất? Để gửi bản chỉnh sửa, vui lòng truy cập trang web của chúng tôikho lưu trữ GitHub công khaivà gửi một vấn đề.

Các vấn đề đã biết với phiên bản thứ 3

Công việc này đang được tiến hành. Hiện tại có một số vấn đề được biết đến:

  • ví dụ về lò phản ứng hạt nhân (6.4.4 Ví dụ: Lò phản ứng hạt nhân của Nhật Bản) cần được cập nhật để phù hợp với những thay đổi của Wikipedia
  • Mã Python chưa được triển khai (Chương 21 Phần kết: Hướng tới “dữ liệu lớn”)
  • Mã Spark chưa được triển khai (Chương 21 Phần kết: Hướng tới “dữ liệu lớn”)
  • Chú thích đầu ra SQL không hoạt động (Chương 15 Truy vấn cơ sở dữ liệu bằng SQL)
  • Mã hóa địa lý bản đồ đường phố mở chưa được triển khai (Chương 18 Tính toán không gian địa lý)
  • ggmosaic()cảnh báo (Hình3.19)
  • Giới thiệu RMarkdown (Phụ lục Phụ lục D - Quy trình và phân tích có thể tái tạo) chưa được chuyển đổi sang ví dụ Quarto
  • vấn đề với tài liệu tham khảo trongPhụ lụcPhụ lục A — Các gói sử dụng trong sách
  • Bài tập chưa có (trong suốt)
  • Tất cả các liên kết đều chưa được xác minh (sự trợ giúp được hoan nghênh ở đây!)

Ấn bản lần 2

Cácphiên bản trực tuyếncủa ấn bản thứ 2 củaKhoa học dữ liệu hiện đại với Rcó sẵn. Bạn có thể mua sách từMáy ép CRChoặc từAmazon.

Cáctrang web chính của cuốn sáchbao gồm nhiều thông tin hơn, bao gồm các bài đánh giá, tài nguyên của người hướng dẫn và lỗi sai.

Để gửi bản chỉnh sửa, vui lòng truy cập trang web của chúng tôikho lưu trữ GitHub công khaivà gửi một vấn đề.

Che phủ

Khoa học dữ liệu hiện đại với R (1)

ấn bản đầu tiên

Cácấn bản đầu tiênvẫn có thể có sẵn để mua. Mặc dù phần lớn tài liệu đã được cập nhật và cải tiến nhưng khuôn khổ chung vẫn giống nhau (đánh giá).

Bản quyền

© 2021 bởiTập đoàn Taylor & Francis, LLC. Trừ khi được luật bản quyền Hoa Kỳ cho phép, không phần nào của cuốn sách này được phép in lại, sao chép, truyền tải hoặc sử dụng dưới bất kỳ hình thức nào bằng phương tiện điện tử, cơ học hoặc phương tiện khác hiện được biết đến hoặc được phát minh sau này, bao gồm sao chụp, vi phim và ghi âm, hoặc trong bất kỳ hệ thống lưu trữ hoặc truy xuất thông tin nào mà không có sự cho phép bằng văn bản của nhà xuất bản.

thư viện(mdsr)

Bối cảnh và động lực

Khối lượng ngày càng tăng và độ phức tạp của dữ liệu đặt ra những thách thức mới cho các nhà phân tích, những người cần có khả năng chuyển đổi các tập dữ liệu phức tạp để trả lời các câu hỏi thống kê quan trọng. MỘTbáo cáo đồng thuận về khoa học dữ liệu cho sinh viên đại học (Viện Hàn lâm Khoa học, Kỹ thuật và Y học Quốc gia 2018)lưu ý rằng khoa học dữ liệu đang cách mạng hóa khoa học và nơi làm việc. Họ định nghĩa một nhà khoa học dữ liệu là “một nhân viên tri thức chủ yếu bận rộn với việc phân tích các nguồn dữ liệu khổng lồ và phức tạp”.

Michael I. Jordanđã mô tả khoa học dữ liệu là sự kết hợp giữa tư duy tính toán và tư duy suy luận (thống kê). Nếu không có kỹ năng “sắp xếp” hoặc “sắp xếp” dữ liệu ngày càng phong phú và phức tạp xung quanh chúng ta, các nhà phân tích sẽ không thể sử dụng những dữ liệu này để đưa ra quyết định tốt hơn.

Nhu cầu rất mạnh đối với người tốt nghiệp có những kỹ năng này. Theo trang web xếp hạng của công tyCửa kính, “nhà khoa học dữ liệu” là công việc tốt nhất ở Mỹ hàng năm từ 2016–2019(Columbus 2019).

Công nghệ dữ liệu mới giúp bạn có thể trích xuất dữ liệu từ nhiều nguồn hơn bao giờ hết. Các thư viện xử lý dữ liệu được sắp xếp hợp lý cho phép các nhà khoa học dữ liệu trình bày cách cơ cấu lại những dữ liệu đó thành dạng phù hợp để phân tích. Hệ thống cơ sở dữ liệu tạo điều kiện thuận lợi cho việc lưu trữ và truy xuất các bộ sưu tập dữ liệu ngày càng lớn hơn. Các công cụ quy trình làm việc tiên tiến thúc đẩy phân tích được ghi chép đầy đủ và có thể tái tạo. Các phương pháp học máy và thống kê hiện đại cho phép nhà phân tích điều chỉnh và đánh giá các mô hình cũng như thực hiện việc học có giám sát hoặc không giám sát để thu thập thông tin về các hiện tượng cơ bản trong thế giới thực. Khoa học dữ liệu hiện đại đòi hỏi sự tích hợp chặt chẽ các kỹ năng thống kê, tính toán, liên quan đến dữ liệu và giao tiếp này.

Đối tượng dự định

Cuốn sách này dành cho những độc giả muốn phát triển các kỹ năng thích hợp để giải quyết các dự án khoa học dữ liệu phức tạp và “suy nghĩ bằng dữ liệu” (được đặt ra bởiDiane Lambertcủa Google). Mong muốn giải quyết vấn đề bằng cách sử dụng dữ liệu là trọng tâm trong phương pháp tiếp cận của chúng tôi.

Chúng tôi thừa nhận rằng không thể trình bày tất cả các chủ đề này ở bất kỳ mức độ chi tiết nào trong một cuốn sách: Nhiều chương có thể tạo thành cơ sở hữu ích cho một khóa học hoặc một loạt khóa học. Thay vào đó, mục tiêu của chúng tôi là đặt nền tảng cho việc phân tích dữ liệu trong thế giới thực và đảm bảo rằng các nhà phân tích nhìn thấy sức mạnh của thống kê và phân tích dữ liệu. Sau khi đọc cuốn sách này, người đọc sẽ mở rộng đáng kể bộ kỹ năng làm việc với những dữ liệu này và sẽ có thêm sự tự tin về khả năng học hỏi các công nghệ mới một cách nhanh chóng.

Cuốn sách này ban đầu được hình thành để hỗ trợ khóa học đại học kéo dài một học kỳ, kéo dài 13 tuần về khoa học dữ liệu. Chúng tôi nhận thấy rằng cuốn sách này sẽ hữu ích cho những sinh viên nâng cao hơn trong các ngành liên quan hoặc các nhà phân tích muốn nâng cao kỹ năng khoa học dữ liệu của họ. Đồng thời, Phần I của cuốn sách có thể tiếp cận được với độc giả nói chung không có kinh nghiệm về lập trình hoặc thống kê.

Đặc điểm chính của cuốn sách này

Tập trung vào nghiên cứu trường hợp và ví dụ mở rộng

Chúng tôi giới thiệu một loạt các nghiên cứu trường hợp phức tạp, mở rộng trong thế giới thực và các ví dụ từ nhiều lĩnh vực ứng dụng, bao gồm chính trị, giao thông, thể thao, khoa học môi trường, y tế công cộng, truyền thông xã hội và giải trí. Những bộ dữ liệu phong phú này yêu cầu sử dụng các kỹ thuật trích xuất dữ liệu phức tạp, các phương pháp trực quan hóa dữ liệu hiện đại và các phương pháp tính toán tinh tế.

Bối cảnh là yếu tố quyết định cho những câu hỏi như vậy và chúng tôi đã cấu trúc cuốn sách này để thúc đẩy sự phát triển song song về tư duy thống kê, các kỹ năng liên quan đến dữ liệu và giao tiếp. Mỗi chương tập trung vào một ví dụ mở rộng khác nhau với các ứng dụng đa dạng, trong khi các bài tập cho phép phát triển và hoàn thiện các kỹ năng học được trong chương đó.

Kết cấu

Cuốn sách có ba phần chính và các phụ lục bổ sung. Phần I giới thiệu về khoa học dữ liệu, bao gồm phần giới thiệu về trực quan hóa dữ liệu, nền tảng để quản lý dữ liệu (hoặc “tranh cãi”) và đạo đức. Phần II mở rộng các khái niệm mô hình hóa chính từ số liệu thống kê giới thiệu, bao gồm mô hình hồi quy, phân loại và dự đoán, cơ sở thống kê và mô phỏng. Phần III giới thiệu các chủ đề nâng cao hơn, bao gồm trực quan hóa dữ liệu tương tác, cơ sở dữ liệu quan hệ và SQL, dữ liệu không gian địa lý, khai thác văn bản và khoa học mạng.

Chúng tôi kết thúc bằng các phụ lục giới thiệu cuốn sáchRbưu kiện,RRStudio, các khía cạnh chính của tư duy thuật toán, phân tích có thể tái tạo, đánh giá hồi quy và cách thiết lập cơ sở dữ liệu SQL cục bộ.

Cuốn sách có tính năng tham khảo chéo rộng rãi (dựa trên các mối liên hệ vốn có giữa các chủ đề và cách tiếp cận).

Vật liệu hỗ trợ

Ngoài nhiều ví dụ và nghiên cứu điển hình mở rộng, cuốn sách còn kết hợp các bài tập ở cuối mỗi chương cùng với các bài tập bổ sung có sẵn trên mạng. Nhiều bài tập có kết thúc khá mở và được thiết kế để cho phép học sinh khám phá khả năng sáng tạo của mình trong việc giải quyết các câu hỏi về khoa học dữ liệu. (Nhà xuất bản có sẵn sổ tay hướng dẫn giải pháp dành cho người hướng dẫn.)

Trang web sách tạihttps://mdsr-book.github.io/mdsr3ebao gồm mục lục, toàn văn từng chương và thư mục. Trang web của người hướng dẫn tạihttps://mdsr-book.github.io/chứa các mẫu mã, bài tập bổ sung, hoạt động bổ sung và danh sách các lỗi.

Những thay đổi trong phiên bản thứ hai

Khoa học dữ liệu di chuyển nhanh chóng. Rất nhiều điều đã thay đổi kể từ khi chúng tôi viết ấn bản đầu tiên. Chúng tôi đã cập nhật tất cả các chương để giải thích nhiều thay đổi trong số này và tận dụng các công nghệ tiên tiến nhấtRgói.

Đầu tiên, chương làm việc với dữ liệu không gian địa lý đã được mở rộng và chia thành hai chương. Phần đầu tiên tập trung vào làm việc với dữ liệu không gian địa lý và phần thứ hai tập trung vào tính toán không gian địa lý. Cả hai chương hiện nay đều sử dụngsfgói và cái mớigeom_sf()chức năng trongggplot2. Những thay đổi này cho phép sinh viên thâm nhập sâu hơn vào thế giới phân tích dữ liệu không gian địa lý.

Thứ hai, chương vềdữ liệu gọn gàngđã trải qua những sửa đổi đáng kể. Một phần mới về các cột danh sách đã được thêm vào và phần lặp lại đã được mở rộng thành một chương đầy đủ. Chương mới này sử dụng nhất quán phong cách lập trình chức năng được cung cấp bởigừ gừbưu kiện. Những thay đổi này giúp sinh viên phát triển thói quen quan tâm đến khả năng mở rộng: nếu bạn sao chép và dán mã nhiều hơn hai lần, có lẽ có cách hiệu quả hơn để thực hiện điều đó.

Thứ ba, chương về học có giám sát đã được chia thành hai chương và được cập nhật để sử dụngmô hình gọn gàngbộ gói. Chương đầu tiên đề cập đến việc đánh giá mô hình một cách tổng quát, trong khi chương thứ hai giới thiệu một số mô hình. Cácmô hình gọn gànghệ sinh thái cung cấp một cú pháp nhất quán để điều chỉnh, diễn giải và đánh giá nhiều mô hình học máy khác nhau, tất cả đều theo cách phù hợp vớigọn gàng. Những thay đổi này làm giảm đáng kể chi phí nhận thức của mã trong chương này.

Nội dung của một số chương khác đã trải qua những sửa đổi nhỏ hơn—nhưng vẫn có ý nghĩa quan trọng. Tất cả các mã trong cuốn sách đã được sửa đổi để tuân thủ chặt chẽ hơn vớigọn gàngcú pháp và phong cách. Các bài tập và lời giải từ ấn bản đầu tiên đã được sửa đổi và các bài tập mới đã được bổ sung. Mã từ mỗi chương hiện có sẵn trên trang web sách. Cuốn sách đã được chuyển tớigiảm giá sách, để có thể tìm thấy phiên bản đầy đủ trực tuyến tạihttps://mdsr-book.github.io/mdsr2e.

Vai trò then chốt của công nghệ

Mặc dù nhiều công cụ có thể được sử dụng một cách hiệu quả để thực hiện khoa học dữ liệu và các công nghệ để thực hiện phân tích đang thay đổi nhanh chóng,Rvà Python đã nổi lên như hai môi trường mạnh mẽ và có khả năng mở rộng. Mặc dù điều quan trọng đối với các nhà khoa học dữ liệu là có thể sử dụng nhiều công nghệ để phân tích, nhưng chúng tôi đã chọn tập trung vào việc sử dụngRRStudio(một môi trường phát triển tích hợp nguồn mở do Posit tạo ra) để tránh tình trạng quá tải về nhận thức. Chúng tôi mô tả một bộ công cụ mạnh mẽ và mạch lạc có thể được giới thiệu trong giới hạn của một học kỳ và cung cấp nền tảng cho việc sắp xếp và khám phá dữ liệu.

Chúng tôi tận dụng tối đa (RStudio) môi trường. Giao diện người dùng mạnh mẽ và dễ sử dụng này bổ sung thêm vô số tính năng choRbao gồm hỗ trợ gói, hoàn thiện mã, trợ giúp tích hợp, trình gỡ lỗi và các công cụ mã hóa khác. Theo kinh nghiệm của chúng tôi, việc sử dụng (RStudio) làm tăng đáng kể năng suất củaRngười dùng và bằng cách tích hợp chặt chẽ các công cụ phân tích có thể tái tạo, giúp tránh các quy trình làm việc “cắt và dán” dễ xảy ra lỗi. Sinh viên và đồng nghiệp của chúng tôi tìm thấy (RStudio) là một giao diện có thể truy cập được. Không có kiến ​​thức hoặc kinh nghiệm trước đó vềRhoặc (RStudio) là bắt buộc: chúng tôi đưa phần giới thiệu vào Phụ lục.

Như đã lưu ý trước đó, chúng tôi đã tích hợp toàn diện nhiều cải tiến đáng kể tronggọn gàng, một tập hợp các gói được đưa ra nhằm cung cấp giao diện nhất quán hơn choR (Wickham 2023). Nhiều quyết định thiết kế được đưa vào tronggọn gàngcác gói giải quyết các vấn đề thường làm phức tạp việc sử dụngRđể phân tích dữ liệu. Những quyết định này cho phép người dùng mới làm quen tiến bộ nhanh hơn và phát triển những thói quen tốt.

Chúng tôi đã sử dụng một hệ thống phân tích có thể tái sản xuất (thợ đan) để tạo mã ví dụ và đầu ra trong cuốn sách này. Mã trích xuất từ ​​các tệp này được cung cấp trên trang web của cuốn sách. Chúng tôi cung cấp một cuộc thảo luận chi tiết về triết lý và cách sử dụng các hệ thống này. Đặc biệt, chúng tôi cảm thấy rằngthợ đanđánh giá lạigói choR, được tích hợp chặt chẽ với Posit's (RStudio) IDE, nên trở thành một phần của mọiRhộp công cụ của người dùng. Chúng tôi không thể tưởng tượng được việc thực hiện một dự án mà không có chúng (và chúng tôi đã kết hợp khả năng tái tạo vào tất cả các khóa học của mình).

Khoa học dữ liệu hiện đại là một môn thể thao đồng đội. Để có thể tham gia đầy đủ, các nhà phân tích phải có khả năng đặt câu hỏi, tìm kiếm dữ liệu để giải quyết vấn đề đó, đưa dữ liệu này vào môi trường điện toán, lập mô hình và khám phá, sau đó truyền đạt kết quả. Đây là một quá trình lặp đi lặp lại đòi hỏi sự kết hợp giữa kỹ năng thống kê và tính toán.

Làm thế nào để sử dụng cuốn sách này

Tài liệu từ cuốn sách này cho đến nay đã hỗ trợ một số khóa học tại các trường Cao đẳng Amherst, Smith và Macalester cũng như nhiều trường khác trên thế giới. Theo kinh nghiệm cá nhân của chúng tôi, điều này bao gồm một khóa học trung cấp về khoa học dữ liệu (năm 2013 và 2014 tại Smith College và kể từ năm 2017 tại Amherst College), một khóa học giới thiệu về khoa học dữ liệu (từ năm 2016 tại Smith) và một khóa học cơ bản về phân tích dữ liệu nâng cao (nhiều năm ở Amherst).

Khóa học khoa học dữ liệu cơ bản tại Smith không có điều kiện tiên quyết và bao gồm tập hợp tài liệu sau:

  • Trực quan hóa dữ liệu: ba tuần, bao gồmChương 1 Lời mở đầu: Tại sao phải khoa học dữ liệu?3 Ngữ pháp đồ họa
  • Sắp xếp dữ liệu: năm tuần, bao gồmChương 4 Sắp xếp dữ liệu trên một bảng7 Lặp lại
  • Đạo đức: một tuần, bao gồmChương 8 Đạo đức khoa học dữ liệu
  • Truy vấn cơ sở dữ liệu: hai tuần, bao gồmChương 15 Truy vấn cơ sở dữ liệu bằng SQL
  • Dữ liệu không gian địa lý: hai tuần, bao gồmChương 17 Làm việc với dữ liệu không gian địa lývà một phần củaChương 18 Tính toán không gian địa lý

Một khóa học trung cấp tại Amherst theo cách tiếp cận củaBaumer (2015)với điều kiện tiên quyết là một số thống kê và một số khoa học máy tính và một dự án cuối cùng tích hợp. Khóa học thường bao gồm các chương sau:

  • Trực quan hóa dữ liệu: hai tuần, bao gồmChương 1 Lời mở đầu: Tại sao phải khoa học dữ liệu?3 Ngữ pháp đồ họa14 Đồ họa dữ liệu động và tùy chỉnh
  • Sắp xếp dữ liệu: bốn tuần, bao gồmChương 4 Sắp xếp dữ liệu trên một bảng7 Lặp lại
  • Đạo đức: một tuần, bao gồmChương 8 Đạo đức khoa học dữ liệu
  • Học tập không giám sát: một tuần, bao gồmChương 12 Học tập không giám sát
  • Truy vấn cơ sở dữ liệu: một tuần, bao gồmChương 15 Truy vấn cơ sở dữ liệu bằng SQL
  • Dữ liệu không gian địa lý: một tuần, bao gồmChương 17 Làm việc với dữ liệu không gian địa lývà một sốChương 18 Tính toán không gian địa lý
  • Khai thác văn bản: một tuần, bao gồmChương 19 Văn bản dưới dạng dữ liệu
  • Khoa học mạng: một tuần, bao gồmChương 20 Khoa học mạng

Khóa học capstone tại Amherst đã xem xét sâu hơn phần lớn tài liệu đó:

  • Trực quan hóa dữ liệu: ba tuần, bao gồmChương 1 Lời mở đầu: Tại sao phải khoa học dữ liệu?3 Ngữ pháp đồ họaChương 14 Đồ họa dữ liệu động và tùy chỉnh
  • Sắp xếp dữ liệu: hai tuần, bao gồmChương 4 Sắp xếp dữ liệu trên một bảng7 Lặp lại
  • Đạo đức: một tuần, bao gồmChương 8 Đạo đức khoa học dữ liệu
  • Mô phỏng: một tuần, bao gồmChương 13 Mô phỏng
  • Học thống kê: hai tuần, bao gồmChương 10 Mô hình dự báo12 Học tập không giám sát
  • Cơ sở dữ liệu: một tuần, bao gồmChương 15 Truy vấn cơ sở dữ liệu bằng SQLPhụ lụcPhụ lục F — Thiết lập máy chủ cơ sở dữ liệu
  • Khai thác văn bản: một tuần, bao gồmChương 19 Văn bản dưới dạng dữ liệu
  • Dữ liệu không gian: một tuần, bao gồmChương 17 Làm việc với dữ liệu không gian địa lý
  • Dữ liệu lớn: một tuần, bao gồmChương 21 Phần kết: Hướng tới “dữ liệu lớn”

Chúng tôi dự đoán rằng cuốn sách này có thể dùng làm văn bản chính cho nhiều khóa học khác, chẳng hạn như khóa học Khoa học dữ liệu 2, có hoặc không có tài liệu bổ sung.

Nội dung ở Phần I – đặc biệt là phầnggplot2khái niệm trực quan được trình bày trongChương 3 Ngữ pháp đồ họadplyrcác thao tác sắp xếp dữ liệu được trình bày trongChương 4 Sắp xếp dữ liệu trên một bảng—là cơ bản và được giả định trong Phần II và III. Mỗi chủ đề trong Phần III đều độc lập với nhau và với tài liệu trong Phần II. Do đó, trong khi hầu hết người hướng dẫn muốn trình bày hầu hết (nếu không phải tất cả) Phần I trong bất kỳ khóa học nào, thì tài liệu trong Phần II và III có thể được thêm vào một cách gần như hoàn toàn tự do.

Tài liệu trong Phần II được thiết kế để giúp những sinh viên có hiểu biết về thống kê của người mới bắt đầu (tức là suy luận cơ bản và hồi quy tuyến tính) tiếp cận với một thế giới phong phú hơn về mô hình thống kê và suy luận thống kê.

Sự nhìn nhận

Chúng tôi xin cảm ơn John Kimmel tại Informa CRC/Chapman và Hall vì sự hỗ trợ và hướng dẫn của ông. Chúng tôi cũng cảm ơn Jim Albert, Nancy Boynton, Jon Caris, Mine Çetinkaya-Rundel, Jonathan Che, Patrick Frenett, Scott Gilman, Maria-Cristiana Gîrjău, Johanna Hardin, Alana Horton, John Horton, Kinari Horton, Azka Javaid, Andrew Kim, Eunice Kim, Caroline Kusiak, Ken Kleinman, Priscilla (Wencong) Li, Amelia McNamara, Melody Owen, Randall Pruim, Tanya Riseman, Gabriel Sosa, Katie St.Clair, Amy Wagaman, Susan (Xiaofei) Wang, Hadley Wickham, J. J. Allaire và Các nhà phát triển Posit (trước đây là RStudio), những người đánh giá ẩn danh, nhiều lớp học tại trường Cao đẳng Smith và Amherst, và nhiều người khác vì những đóng góp choRVà (RStudio) môi trường, nhận xét, hướng dẫn và/hoặc đề xuất hữu ích về bản thảo của bản thảo. Rose Porta là người có công trong việc hiệu đính và tạo điều kiện thuận lợi cho quá trình chuyển đổi từ Sweave sang R Markdown. Jessica Yu đã chuyển đổi và gắn thẻ hầu hết các bài tập từ phiên bản đầu tiên sang định dạng mới dựa trênnghiên cứu.

Trên hết, chúng tôi đánh giá rất cao Cory, Maya và Julia vì sự kiên nhẫn và hỗ trợ của họ.

Northampton, MA và St.Paul, MN
Tháng 8 năm 2023(ấn bản thứ ba [chỉnh sửa và cập nhật nhẹ])

Northampton, MA và St.Paul, MN
Tháng 12 năm 2020(Phiên bản thứ hai)

Khoa học dữ liệu hiện đại với R (2024)
Top Articles
Latest Posts
Article information

Author: Jerrold Considine

Last Updated:

Views: 6020

Rating: 4.8 / 5 (78 voted)

Reviews: 85% of readers found this page helpful

Author information

Name: Jerrold Considine

Birthday: 1993-11-03

Address: Suite 447 3463 Marybelle Circles, New Marlin, AL 20765

Phone: +5816749283868

Job: Sales Executive

Hobby: Air sports, Sand art, Electronics, LARPing, Baseball, Book restoration, Puzzles

Introduction: My name is Jerrold Considine, I am a combative, cheerful, encouraging, happy, enthusiastic, funny, kind person who loves writing and wants to share my knowledge and understanding with you.