Store bad string and url values.

jdm · jdm · commit 5a2d392ee312 · 2017-07-05T12:30:32.000-04:00
diff --git a/src/serializer.rs b/src/serializer.rs
@@ -129,8 +129,8 @@ impl<'a> ToCss for Token<'a> {
             Token::SquareBracketBlock => dest.write_str("[")?,
             Token::CurlyBracketBlock => dest.write_str("{")?,
 
-            Token::BadUrl => dest.write_str("url(<bad url>)")?,
-            Token::BadString => dest.write_str("\"<bad string>\n")?,
+            Token::BadUrl(_) => dest.write_str("url(<bad url>)")?,
+            Token::BadString(_) => dest.write_str("\"<bad string>\n")?,
             Token::CloseParenthesis => dest.write_str(")")?,
             Token::CloseSquareBracket => dest.write_str("]")?,
             Token::CloseCurlyBracket => dest.write_str("}")?,
@@ -376,7 +376,7 @@ impl<'a> Token<'a> {
         TokenSerializationType(match *self {
             Token::Ident(_) => Ident,
             Token::AtKeyword(_) | Token::Hash(_) | Token::IDHash(_) => AtKeywordOrHash,
-            Token::UnquotedUrl(_) | Token::BadUrl => UrlOrBadUrl,
+            Token::UnquotedUrl(_) | Token::BadUrl(_) => UrlOrBadUrl,
             Token::Delim('#') => DelimHash,
             Token::Delim('@') => DelimAt,
             Token::Delim('.') | Token::Delim('+') => DelimDotOrPlus,
@@ -400,7 +400,7 @@ impl<'a> Token<'a> {
             Token::ParenthesisBlock => OpenParen,
             Token::SquareBracketBlock | Token::CurlyBracketBlock |
             Token::CloseParenthesis | Token::CloseSquareBracket | Token::CloseCurlyBracket |
-            Token::QuotedString(_) | Token::BadString |
+            Token::QuotedString(_) | Token::BadString(_) |
             Token::Delim(_) | Token::Colon | Token::Semicolon | Token::Comma | Token::CDO |
             Token::IncludeMatch | Token::PrefixMatch | Token::SuffixMatch
             => Other,
diff --git a/src/tests.rs b/src/tests.rs
@@ -848,8 +848,8 @@ fn one_component_value_to_json(token: Token, input: &mut Parser) -> Json {
             v.extend(nested(input));
             v
         }),
-        Token::BadUrl => JArray!["error", "bad-url"],
-        Token::BadString => JArray!["error", "bad-string"],
+        Token::BadUrl(_) => JArray!["error", "bad-url"],
+        Token::BadString(_) => JArray!["error", "bad-string"],
         Token::CloseParenthesis => JArray!["error", ")"],
         Token::CloseSquareBracket => JArray!["error", "]"],
         Token::CloseCurlyBracket => JArray!["error", "}"],
diff --git a/src/tokenizer.rs b/src/tokenizer.rs
@@ -157,12 +157,12 @@ pub enum Token<'a> {
     /// A `<bad-url-token>`
     ///
     /// This token always indicates a parse error.
-    BadUrl,
+    BadUrl(CompactCowStr<'a>),
 
     /// A `<bad-string-token>`
     ///
     /// This token always indicates a parse error.
-    BadString,
+    BadString(CompactCowStr<'a>),
 
     /// A `<)-token>`
     ///
@@ -194,7 +194,7 @@ impl<'a> Token<'a> {
     pub fn is_parse_error(&self) -> bool {
         matches!(
             *self,
-            BadUrl | BadString | CloseParenthesis | CloseSquareBracket | CloseCurlyBracket
+            BadUrl(_) | BadString(_) | CloseParenthesis | CloseSquareBracket | CloseCurlyBracket
         )
     }
 }
@@ -567,14 +567,14 @@ fn next_token<'a>(tokenizer: &mut Tokenizer<'a>) -> Result<Token<'a>, ()> {
 fn consume_string<'a>(tokenizer: &mut Tokenizer<'a>, single_quote: bool) -> Token<'a> {
     match consume_quoted_string(tokenizer, single_quote) {
         Ok(value) => QuotedString(value),
-        Err(()) => BadString
+        Err(value) => BadString(value)
     }
 }
 
 
 /// Return `Err(())` on syntax error (ie. unescaped newline)
 fn consume_quoted_string<'a>(tokenizer: &mut Tokenizer<'a>, single_quote: bool)
-                             -> Result<CompactCowStr<'a>, ()> {
+                             -> Result<CompactCowStr<'a>, CompactCowStr<'a>> {
     tokenizer.advance(1);  // Skip the initial quote
     // start_pos is at code point boundary, after " or '
     let start_pos = tokenizer.position();
@@ -607,15 +607,22 @@ fn consume_quoted_string<'a>(tokenizer: &mut Tokenizer<'a>, single_quote: bool)
                 string_bytes = tokenizer.slice_from(start_pos).as_bytes().to_owned();
                 break
             }
-            b'\n' | b'\r' | b'\x0C' => { return Err(()) },
+            b'\n' | b'\r' | b'\x0C' => {
+                return Err(tokenizer.slice_from(start_pos).into())
+            },
             _ => {}
         }
         tokenizer.consume_byte();
     }
 
     while !tokenizer.is_eof() {
         if matches!(tokenizer.next_byte_unchecked(), b'\n' | b'\r' | b'\x0C') {
-            return Err(());
+            return Err(
+                // string_bytes is well-formed UTF-8, see other comments.
+                unsafe {
+                    from_utf8_release_unchecked(string_bytes)
+                }.into()
+            );
         }
         let b = tokenizer.consume_byte();
         match_byte! { b,
@@ -1024,6 +1031,7 @@ fn consume_unquoted_url<'a>(tokenizer: &mut Tokenizer<'a>) -> Result<Token<'a>,
     }
 
     fn consume_bad_url<'a>(tokenizer: &mut Tokenizer<'a>) -> Token<'a> {
+        let start_pos = tokenizer.position();
         // Consume up to the closing )
         while !tokenizer.is_eof() {
             match_byte! { tokenizer.consume_byte(),
@@ -1034,7 +1042,7 @@ fn consume_unquoted_url<'a>(tokenizer: &mut Tokenizer<'a>) -> Result<Token<'a>,
                 _ => {},
             }
         }
-        BadUrl
+        BadUrl(tokenizer.slice_from(start_pos).into())
     }
 }
 

Original file line number	Diff line number	Diff line change
`@@ -157,12 +157,12 @@ pub enum Token<'a> {`
`157`	`157`	/// A `<bad-url-token>`
`158`	`158`	`///`
`159`	`159`	`/// This token always indicates a parse error.`
`160`		`- BadUrl,`
	`160`	`+ BadUrl(CompactCowStr<'a>),`
`161`	`161`
`162`	`162`	/// A `<bad-string-token>`
`163`	`163`	`///`
`164`	`164`	`/// This token always indicates a parse error.`
`165`		`- BadString,`
	`165`	`+ BadString(CompactCowStr<'a>),`
`166`	`166`
`167`	`167`	/// A `<)-token>`
`168`	`168`	`///`
`@@ -194,7 +194,7 @@ impl<'a> Token<'a> {`
`194`	`194`	`pub fn is_parse_error(&self) -> bool {`
`195`	`195`	`matches!(`
`196`	`196`	`*self,`
`197`		`- BadUrl \| BadString \| CloseParenthesis \| CloseSquareBracket \| CloseCurlyBracket`
	`197`	`+ BadUrl(_) \| BadString(_) \| CloseParenthesis \| CloseSquareBracket \| CloseCurlyBracket`
`198`	`198`	`)`
`199`	`199`	`}`
`200`	`200`	`}`
`@@ -567,14 +567,14 @@ fn next_token<'a>(tokenizer: &mut Tokenizer<'a>) -> Result<Token<'a>, ()> {`
`567`	`567`	`fn consume_string<'a>(tokenizer: &mut Tokenizer<'a>, single_quote: bool) -> Token<'a> {`
`568`	`568`	`match consume_quoted_string(tokenizer, single_quote) {`
`569`	`569`	`Ok(value) => QuotedString(value),`
`570`		`- Err(()) => BadString`
	`570`	`+ Err(value) => BadString(value)`
`571`	`571`	`}`
`572`	`572`	`}`
`573`	`573`
`574`	`574`
`575`	`575`	/// Return `Err(())` on syntax error (ie. unescaped newline)
`576`	`576`	`fn consume_quoted_string<'a>(tokenizer: &mut Tokenizer<'a>, single_quote: bool)`
`577`		`- -> Result<CompactCowStr<'a>, ()> {`
	`577`	`+ -> Result<CompactCowStr<'a>, CompactCowStr<'a>> {`
`578`	`578`	`tokenizer.advance(1); // Skip the initial quote`
`579`	`579`	`// start_pos is at code point boundary, after " or '`
`580`	`580`	`let start_pos = tokenizer.position();`
`@@ -607,15 +607,22 @@ fn consume_quoted_string<'a>(tokenizer: &mut Tokenizer<'a>, single_quote: bool)`
`607`	`607`	`string_bytes = tokenizer.slice_from(start_pos).as_bytes().to_owned();`
`608`	`608`	`break`
`609`	`609`	`}`
`610`		`- b'\n' \| b'\r' \| b'\x0C' => { return Err(()) },`
	`610`	`+ b'\n' \| b'\r' \| b'\x0C' => {`
	`611`	`+ return Err(tokenizer.slice_from(start_pos).into())`
	`612`	`+ },`
`611`	`613`	`_ => {}`
`612`	`614`	`}`
`613`	`615`	`tokenizer.consume_byte();`
`614`	`616`	`}`
`615`	`617`
`616`	`618`	`while !tokenizer.is_eof() {`
`617`	`619`	`if matches!(tokenizer.next_byte_unchecked(), b'\n' \| b'\r' \| b'\x0C') {`
`618`		`- return Err(());`
	`620`	`+ return Err(`
	`621`	`+ // string_bytes is well-formed UTF-8, see other comments.`
	`622`	`+ unsafe {`
	`623`	`+ from_utf8_release_unchecked(string_bytes)`
	`624`	`+ }.into()`
	`625`	`+ );`
`619`	`626`	`}`
`620`	`627`	`let b = tokenizer.consume_byte();`
`621`	`628`	`match_byte! { b,`
`@@ -1024,6 +1031,7 @@ fn consume_unquoted_url<'a>(tokenizer: &mut Tokenizer<'a>) -> Result<Token<'a>,`
`1024`	`1031`	`}`
`1025`	`1032`
`1026`	`1033`	`fn consume_bad_url<'a>(tokenizer: &mut Tokenizer<'a>) -> Token<'a> {`
	`1034`	`+ let start_pos = tokenizer.position();`
`1027`	`1035`	`// Consume up to the closing )`
`1028`	`1036`	`while !tokenizer.is_eof() {`
`1029`	`1037`	`match_byte! { tokenizer.consume_byte(),`
`@@ -1034,7 +1042,7 @@ fn consume_unquoted_url<'a>(tokenizer: &mut Tokenizer<'a>) -> Result<Token<'a>,`
`1034`	`1042`	`_ => {},`
`1035`	`1043`	`}`
`1036`	`1044`	`}`
`1037`		`- BadUrl`
	`1045`	`+ BadUrl(tokenizer.slice_from(start_pos).into())`
`1038`	`1046`	`}`
`1039`	`1047`	`}`
`1040`	`1048`