<?xml version="1.0" encoding="utf-8" standalone="yes"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xhtml="http://www.w3.org/1999/xhtml"><url><loc>https://chrisliu298.ai/</loc><lastmod>2026-03-02T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/tags/llm/</loc><lastmod>2026-03-02T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/posts/off-policy-drift-in-llm-rl/</loc><lastmod>2026-03-02T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/posts/</loc><lastmod>2026-03-02T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/tags/ppo/</loc><lastmod>2026-03-02T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/tags/rl/</loc><lastmod>2026-03-02T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/tags/rlhf/</loc><lastmod>2026-03-02T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/tags/</loc><lastmod>2026-03-02T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/posts/deriving-direct-preference-optimization/</loc><lastmod>2024-01-28T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/posts/a-minimal-example-of-double-descent/</loc><lastmod>2023-06-05T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/tags/double-descent/</loc><lastmod>2023-06-05T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/posts/deriving-policy-gradient/</loc><lastmod>2020-12-24T00:00:00+00:00</lastmod></url><url><loc>https://chrisliu298.ai/news/</loc></url><url><loc>https://chrisliu298.ai/papers/</loc></url><url><loc>https://chrisliu298.ai/services/</loc></url></urlset>