Comparative Training

In this apply, we use a network to learn this target input, given it's pre-evaluated output:

Gradient Descent

First, we train using basic gradient descent method apply weak line search conditions.

Logging

Reset training subject: 962310219010
BACKPROP_AGG_SIZE = 3
THREADS = 64
SINGLE_THREADED = false
Initialized CoreSettings = {
"backpropAggregationSize" : 3,
"jvmThreads" : 64,
"singleThreaded" : false
}
Reset training subject: 962347411017
Constructing line search parameters: GD
th(0)=85.02732385157958;dx=-9.0437504E23
New Minimum: 85.02732385157958 > 0.0
Armijo: th(2.154434690031884)=0.0; dx=-9.043750400017588E11 evalInputDelta=85.02732385157958
Armijo: th(1.077217345015942)=0.0; dx=-9.043750400017588E11 evalInputDelta=85.02732385157958
Armijo: th(0.3590724483386473)=0.22972974982742006; dx=-9.043750400020836E11 evalInputDelta=84.79759410175217
Armijo: th(0.08976811208466183)=0.8183989624817457; dx=-9.043750400041466E11 evalInputDelta=84.20892488909783
Armijo: th(0.017953622416932366)=1.1926560978221612; dx=-9.043750400084312E11 evalInputDelta=83.83466775375742
Armijo: th(0.002992270402822061)=1.3415084373457133; dx=-9.043750400131565E11 evalInputDelta=83.68581541423387
Armijo: th(4.2746720040315154E-4)=1.3764116784917682; dx=-9.043750400149042E11 evalInputDelta=83.65091217308782
Armijo: th(5.343340005039394E-5)=1.3819028112087421; dx=-9.043750400152109E11 evalInputDelta=83.64542104037083
Armijo: th(5.9370444500437714E-6)=1.3826083970937773; dx=-9.043750400152511E11 evalInputDelta=83.6447154544858
Armijo: th(5.937044450043771E-7)=1.3826878948615837; dx=-9.043750400152556E11 evalInputDelta=83.64463595671799
Armijo: th(5.397313136403428E-8)=1.3826959262847835; dx=-9.04375040015256E11 evalInputDelta=83.6446279252948
Armijo: th(4.4977609470028565E-9)=1.382696662510934; dx=-9.043750400152561E11 evalInputDelta=83.64462718906864
Armijo: th(3.4598161130791205E-10)=1.515325625648701; dx=-1.152000090436352E19 evalInputDelta=83.51199822593088
Armijo: th(2.4712972236279432E-11)=1.805146259487374; dx=-1.0368000090647514E20 evalInputDelta=83.22217759209221
Armijo: th(1.6475314824186289E-12)=65.8594943246316; dx=-6.173702400069604E23 evalInputDelta=19.167829526947983
Armijo: th(1.029707176511643E-13)=85.02732385157806; dx=-9.0437504E23 evalInputDelta=1.5205614545266144E-12
Armijo: th(6.057101038303783E-15)=85.0273238515795; dx=-9.0437504E23 evalInputDelta=8.526512829121202E-14
MIN ALPHA (3.3650561323909904E-16): th(2.154434690031884)=0.0
Fitness changed from 85.02732385157958 to 0.0
Iteration 1 complete. Error: 0.0 Total: 0.2826; Orientation: 0.0044; Line Search: 0.2229
th(0)=0.0;dx=-1.54651712
Armijo: th(2.154434690031884E-15)=0.0; dx=-1.54651712 evalInputDelta=0.0
Armijo: th(1.077217345015942E-15)=0.0; dx=-1.54651712 evalInputDelta=0.0
MIN ALPHA (3.5907244833864734E-16): th(0.0)=0.0
Fitness changed from 0.0 to 0.0
Static Iteration Total: 0.0325; Orientation: 0.0016; Line Search: 0.0262
Iteration 2 failed. Error: 0.0
Previous Error: 0.0 -> 0.0
Optimization terminated 2
Final threshold in iteration 2: 0.0 (> 0.0) after 0.316s (< 30.000s)

Conjugate Gradient Descent

First, we use a conjugate gradient descent method, which converges the fastest for purely linear functions.

Logging

Reset training subject: 962631253150
Reset training subject: 962639283818
Constructing line search parameters: GD
F(0.0) = LineSearchPoint{point=PointSample{avg=85.02732385157958}, derivative=-9.0437504E23}
New Minimum: 85.02732385157958 > 1.5241393623018678
F(1.0E-10) = LineSearchPoint{point=PointSample{avg=1.5241393623018678}, derivative=-1.1520000904454148E19}, evalInputDelta = -83.50318448927771
New Minimum: 1.5241393623018678 > 1.3923771499914461
F(7.000000000000001E-10) = LineSearchPoint{point=PointSample{avg=1.3923771499914461}, derivative=-9.04451975299809E11}, evalInputDelta = -83.63494670158813
New Minimum: 1.3923771499914461 > 1.3826966565253431
F(4.900000000000001E-9) = LineSearchPoint{point=PointSample{avg=1.3826966565253431}, derivative=-9.043750400152561E11}, evalInputDelta = -83.64462719505424
New Minimum: 1.3826966565253431 > 1.382696219033708
F(3.430000000000001E-8) = LineSearchPoint{point=PointSample{avg=1.382696219033708}, derivative=-9.04375040015256E11}, evalInputDelta = -83.64462763254588
New Minimum: 1.382696219033708 > 1.3826931566127798
F(2.4010000000000004E-7) = LineSearchPoint{point=PointSample{avg=1.3826931566127798}, derivative=-9.043750400152559E11}, evalInputDelta = -83.6446306949668
New Minimum: 1.3826931566127798 > 1.3826717206716408
F(1.6807000000000003E-6) = LineSearchPoint{point=PointSample{avg=1.3826717206716408}, derivative=-9.043750400152546E11}, evalInputDelta = -83.64465213090794
New Minimum: 1.3826717206716408 > 1.382521718319304
F(1.1764900000000001E-5) = LineSearchPoint{point=PointSample{avg=1.382521718319304}, derivative=-9.043750400152461E11}, evalInputDelta = -83.64480213326027
New Minimum: 1.382521718319304 > 1.3814741052122224
F(8.235430000000001E-5) = LineSearchPoint{point=PointSample{avg=1.3814741052122224}, derivative=-9.043750400151866E11}, evalInputDelta = -83.64584974636736
New Minimum: 1.3814741052122224 > 1.3742555206510478
F(5.764801000000001E-4) = LineSearchPoint{point=PointSample{avg=1.3742555206510478}, derivative=-9.043750400147863E11}, evalInputDelta = -83.65306833092853
New Minimum: 1.3742555206510478 > 1.3284806480818379
F(0.004035360700000001) = LineSearchPoint{point=PointSample{avg=1.3284806480818379}, derivative=-9.043750400125845E11}, evalInputDelta = -83.69884320349774
New Minimum: 1.3284806480818379 > 1.117461238239176
F(0.028247524900000005) = LineSearchPoint{point=PointSample{avg=1.117461238239176}, derivative=-9.043750400070471E11}, evalInputDelta = -83.90986261334041
New Minimum: 1.117461238239176 > 0.5002782384119062
F(0.19773267430000002) = LineSearchPoint{point=PointSample{avg=0.5002782384119062}, derivative=-9.043750400027496E11}, evalInputDelta = -84.52704561316767
New Minimum: 0.5002782384119062 > 0.0
F(1.3841287201) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(9.688901040700001) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(67.8223072849) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(474.7561509943) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(3323.2930569601003) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(23263.0513987207) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(162841.3597910449) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(1139889.5185373144) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(7979226.6297612) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(5.58545864083284E7) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(3.909821048582988E8) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(2.7368747340080914E9) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
F(1.915812313805664E10) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
0.0 <= 85.02732385157958
F(1.0E10) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-9.043750400017588E11}, evalInputDelta = -85.02732385157958
Right bracket at 1.0E10
Converged to right
Fitness changed from 85.02732385157958 to 0.0
Iteration 1 complete. Error: 0.0 Total: 0.8295; Orientation: 0.0016; Line Search: 0.8137
F(0.0) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}
F(1.0E10) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
0.0 <= 0.0
F(5.0E9) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 5.0E9
F(2.5E9) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 2.5E9
F(1.25E9) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 1.25E9
F(6.25E8) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 6.25E8
F(3.125E8) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 3.125E8
F(1.5625E8) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 1.5625E8
F(7.8125E7) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 7.8125E7
F(3.90625E7) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 3.90625E7
F(1.953125E7) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 1.953125E7
F(9765625.0) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 9765625.0
F(4882812.5) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Right bracket at 4882812.5
F(2441406.25) = LineSearchPoint{point=PointSample{avg=0.0}, derivative=-1.54651712}, evalInputDelta = 0.0
Loops = 12
Fitness changed from 0.0 to 0.0
Static Iteration Total: 0.7277; Orientation: 0.0013; Line Search: 0.7235
Iteration 2 failed. Error: 0.0
Previous Error: 0.0 -> 0.0
Optimization terminated 2
Final threshold in iteration 2: 0.0 (> 0.0) after 1.558s (< 30.000s)

Limited-Memory BFGS

Next, we apply the same optimization using L-BFGS, which is nearly ideal for purely second-order or quadratic functions.

Logging

Reset training subject: 964193252035
Reset training subject: 964196567083
Adding measurement 690759de to history. Total: 0
LBFGS Accumulation History: 1 points
Constructing line search parameters: GD
Non-optimal measurement 85.02732385157958 < 85.02732385157958. Total: 1
th(0)=85.02732385157958;dx=-9.0437504E23
Adding measurement 462702d5 to history. Total: 1
New Minimum: 85.02732385157958 > 0.0
Armijo: th(2.154434690031884)=0.0; dx=-9.043750400017588E11 evalInputDelta=85.02732385157958
Non-optimal measurement 0.0 < 0.0. Total: 2
Armijo: th(1.077217345015942)=0.0; dx=-9.043750400017588E11 evalInputDelta=85.02732385157958
Non-optimal measurement 0.22972974982742006 < 0.0. Total: 2
Armijo: th(0.3590724483386473)=0.22972974982742006; dx=-9.043750400020836E11 evalInputDelta=84.79759410175217
Non-optimal measurement 0.8183989624817457 < 0.0. Total: 2
Armijo: th(0.08976811208466183)=0.8183989624817457; dx=-9.043750400041467E11 evalInputDelta=84.20892488909783
Non-optimal measurement 1.1926560978221612 < 0.0. Total: 2
Armijo: th(0.017953622416932366)=1.1926560978221612; dx=-9.043750400084312E11 evalInputDelta=83.83466775375742
Non-optimal measurement 1.3415084373457133 < 0.0. Total: 2
Armijo: th(0.002992270402822061)=1.3415084373457133; dx=-9.043750400131565E11 evalInputDelta=83.68581541423387
Non-optimal measurement 1.3764116784917682 < 0.0. Total: 2
Armijo: th(4.2746720040315154E-4)=1.3764116784917682; dx=-9.043750400149042E11 evalInputDelta=83.65091217308782
Non-optimal measurement 1.3819028112087421 < 0.0. Total: 2
Armijo: th(5.343340005039394E-5)=1.3819028112087421; dx=-9.043750400152109E11 evalInputDelta=83.64542104037083
Non-optimal measurement 1.3826083970937773 < 0.0. Total: 2
Armijo: th(5.9370444500437714E-6)=1.3826083970937773; dx=-9.043750400152511E11 evalInputDelta=83.6447154544858
Non-optimal measurement 1.3826878948615837 < 0.0. Total: 2
Armijo: th(5.937044450043771E-7)=1.3826878948615837; dx=-9.043750400152556E11 evalInputDelta=83.64463595671799
Non-optimal measurement 1.3826959262847835 < 0.0. Total: 2
Armijo: th(5.397313136403428E-8)=1.3826959262847835; dx=-9.043750400152561E11 evalInputDelta=83.6446279252948
Non-optimal measurement 1.382696662510934 < 0.0. Total: 2
Armijo: th(4.4977609470028565E-9)=1.382696662510934; dx=-9.043750400152561E11 evalInputDelta=83.64462718906864
Non-optimal measurement 1.515325625648701 < 0.0. Total: 2
Armijo: th(3.4598161130791205E-10)=1.515325625648701; dx=-1.152000090436352E19 evalInputDelta=83.51199822593088
Non-optimal measurement 1.805146259487374 < 0.0. Total: 2
Armijo: th(2.4712972236279432E-11)=1.805146259487374; dx=-1.0368000090647516E20 evalInputDelta=83.22217759209221
Non-optimal measurement 65.8594943246316 < 0.0. Total: 2
Armijo: th(1.6475314824186289E-12)=65.8594943246316; dx=-6.173702400069604E23 evalInputDelta=19.167829526947983
Non-optimal measurement 85.02732385157806 < 0.0. Total: 2
Armijo: th(1.029707176511643E-13)=85.02732385157806; dx=-9.043750400000001E23 evalInputDelta=1.5205614545266144E-12
Non-optimal measurement 85.0273238515795 < 0.0. Total: 2
Armijo: th(6.057101038303783E-15)=85.0273238515795; dx=-9.0437504E23 evalInputDelta=8.526512829121202E-14
Non-optimal measurement 0.0 < 0.0. Total: 2
MIN ALPHA (3.3650561323909904E-16): th(2.154434690031884)=0.0
Fitness changed from 85.02732385157958 to 0.0
Iteration 1 complete. Error: 0.0 Total: 0.1645; Orientation: 0.0052; Line Search: 0.1398
Non-optimal measurement 0.0 < 0.0. Total: 2
LBFGS Accumulation History: 2 points
Non-optimal measurement 0.0 < 0.0. Total: 2
th(0)=0.0;dx=-1.54651712
Non-optimal measurement 0.0 < 0.0. Total: 2
Armijo: th(2.154434690031884E-15)=0.0; dx=-1.54651712 evalInputDelta=0.0
Non-optimal measurement 0.0 < 0.0. Total: 2
Armijo: th(1.077217345015942E-15)=0.0; dx=-1.54651712 evalInputDelta=0.0
Non-optimal measurement 0.0 < 0.0. Total: 2
MIN ALPHA (3.5907244833864734E-16): th(0.0)=0.0
Fitness changed from 0.0 to 0.0
Static Iteration Total: 0.0255; Orientation: 0.0034; Line Search: 0.0186
Iteration 2 failed. Error: 0.0
Previous Error: 0.0 -> 0.0
Optimization terminated 2
Final threshold in iteration 2: 0.0 (> 0.0) after 0.191s (< 30.000s)

Test Modules

Training Characteristics

Input Learning

Gradient Descent

Conjugate Gradient Descent

Limited-Memory BFGS

Results

Results