Appendix for DeltaGrad: Rapid retraining of machine learning models

Yinjun Wu,Edgar Dobriban,Susan B. Davidson
2020-01-01
Abstract:A Mathematical details 2 A.1 Additional notes on setup, preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 A.1.1 Classical results on GD convergence, SGD convergence . . . . . . . . . . . . . . . . . . 2 A.1.2 Notations for DeltaGrad with SGD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 A.1.3 Classical results for random variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 A.2 Results for deterministic gradient descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 A.2.1 Quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 A.2.2 Proof that Quasi-Hessians are well-conditioned . . . . . . . . . . . . . . . . . . . . . . 5 A.2.3 Proof preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 A.2.4 Main recursions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 A.2.5 Proof of Theorem 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 A.2.6 Proof of Theorem 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 A.2.7 Proof of Theorem 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 A.2.8 Proof of Theorem 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 A.3 Results for stochastic gradient descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 A.3.1 Quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 A.3.2 Proof preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 A.3.3 Main recursions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 A.3.4 Proof of Theorem 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 A.3.5 Proof of Theorem 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 A.3.6 Proof of Theorem 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 A.3.7 Proof of Theorem 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
What problem does this paper attempt to address?